1. 程式人生 > >Learning from delayed reward (Q-Learning的提出) (Watkins博士畢業論文)(建立了現在的reinforcement Learning模型)

Learning from delayed reward (Q-Learning的提出) (Watkins博士畢業論文)(建立了現在的reinforcement Learning模型)

最近在在學習強化學習方面的東西, 對於現有的很多文章中關於強化學習的知識很是不理解,很多都是一個公式套一個公式,也沒有什麼太多的解釋,感覺像是在看天書一般,經過了較長時間的掙扎最後決定從一些基礎的東西開始入手,於是便有了這篇論文的發現。

 

Learning  from  Delayed  Reward   

 該論文的頁面為:    http://www.cs.rhul.ac.uk/~chrisw/thesis.html

下載地址為:           

http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

 

論文頁面對這篇文章的描述:

The thesis introduces the notion of reinforcement learning as learning to control a Markov Decision Process by incremental dynamic programming,

and describes a range of algorithms for doing this, including Q-learning, for which a sketch of a proof of convergence is given.

 

這篇文章雖然在現有的很多文獻中並不是很被提及,但是它卻具有很大的意義。這篇文章(準確的說是作者在1987年發表的一篇會議論文,整合在了這篇學位論文中了)建立了現在意義上的強化學習模型,它第一次將trial-and-error  和 dynammic  programming   和  temporal  diffecrence  結合在了一起,並提出了Q-Learning演算法。在某種意義上它可謂是“萬惡之源”。

=====================================================

============================================================

 文章目錄: