Learning from delayed reward (Q-Learning的提出) (Watkins博士畢業論文)(建立了現在的reinforcement Learning模型)
最近在在學習強化學習方面的東西, 對於現有的很多文章中關於強化學習的知識很是不理解,很多都是一個公式套一個公式,也沒有什麼太多的解釋,感覺像是在看天書一般,經過了較長時間的掙扎最後決定從一些基礎的東西開始入手,於是便有了這篇論文的發現。
Learning from Delayed Reward
該論文的頁面為: http://www.cs.rhul.ac.uk/~chrisw/thesis.html
下載地址為:
論文頁面對這篇文章的描述:
The thesis introduces the notion of reinforcement learning as learning to control a Markov Decision Process by incremental dynamic programming,
and describes a range of algorithms for doing this, including Q-learning, for which a sketch of a proof of convergence is given.
這篇文章雖然在現有的很多文獻中並不是很被提及,但是它卻具有很大的意義。這篇文章(準確的說是作者在1987年發表的一篇會議論文,整合在了這篇學位論文中了)建立了現在意義上的強化學習模型,它第一次將trial-and-error 和 dynammic programming 和 temporal diffecrence 結合在了一起,並提出了Q-Learning演算法。在某種意義上它可謂是“萬惡之源”。
=====================================================
============================================================
文章目錄: