Reinforcement Learning學習筆記(一)綜述
阿新 • • 發佈:2019-02-19
強化學習是機器學習的一大分支,隨著alphaGo的巨大成功,其使用的強化學習方法也逐漸成為近年來的研究熱點。個人理解強化學習與一般的機器學習主要有一下幾點差別,既有優勢又有不足。
1、傳統機器學習需要大量的標註資料,在某些領域這些資料是難以獲得或成本很高的。
2、傳統機器學習在本質上有一個學習的物件,即expert,用以生成比較的真值以計算loss來驅動網路更新,但在一些領域並沒有一個很好的expert,例如圍棋,儘管人類已經鑽研千年,但與Master相比依然有著巨大的差距,直接將人類的資料作為expert不僅有資料量可能不足的問題,還可能因為expert的水平不夠而影響學習方向。(儘管傳統的機器學習學得的結果也是可以超過expert的,但可以想見一旦從本質上超出太多則會因為loss的限制逆向傳播)
3、雖然有著一些差別,但作為“學習”,其本質都是根據“比較”所產生的誤差來更新引數,只不過傳統機器學習的比較物件為expert,而強化學習的比較物件為“自己估計出的價值”(值學習),而自己估計出的價值的核心驅動力在於reward(當前reward加上未來可能得到的reward),而reward來自於自己的設計。
4、傳統機器學習與強化學習的差別還可以算的上是思路方向上的差別,但加入“深度”則只是形式上的差別,在思路上並未有很大變化,只是用含有大量引數的神經網路去替代傳統方法中一些非線性的函式,本質上依然是對函式:輸入——>輸出的引數調整來進行優化。
強化學習自上世紀就是年代提出以來,理論在不斷的發展但核心變化不大,人們根據不同的需求設計出不同的模型,但最終目的都是為了解決問題。