TD Learning，SARSA，Q Learning

阿新 • • 發佈：2019-02-16

最近在讀一篇增強學習的綜述
DEEP REINFORCEMENT LEARNING : AN OVERVIEW
發現裡邊介紹SARSA時，虛擬碼是錯誤的。
1.TD Learning
這裡寫圖片描述
2.SARSA

錯誤就在於，sarsa演算法的下一個動作在這次更新時就已經確定了。所以需要在step迭代之前對action進行初始化。
3.Q Learning

TD Learning包含Q Learning和sarsa。
我們說Q Learning是off-policy的，而sarsa是on-policy的。為什麼這麼說呢？
是因為更新Q時，sarsa是確定好下一個狀態和action才進行更新的。但是Q Learning更新時，是選取下一個state的最優動作進行更新，而下一個state實際上採取的action是不能在這次更新時確定的。Q Learning好比是觀察你上一次的情況，這次我在做決定。但是sarsa這次更新之前就已經確定好了下一個state和action。這也是Q Learning和sarsa的區別。
這三種方法在特定條件下收斂。根據最優值函式，我們能得到最優策略。

TD Learning，SARSA，Q Learning

TD Learning，SARSA，Q Learning

強化學習(五) - 無模型學習(Sarsa、Q-Learning)

SARSA與Q-learning的區別

Learning from delayed reward (Q-Learning的提出) （Watkins博士畢業論文）（建立了現在的reinforcement Learning模型）

【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

DQN（Deep Q-learning）入門教程（六）之DQN Play Flappy-bird ，MountainCar

基於深度學習的影象檢索 image retrieval based on deep learning （code ，程式碼）

時間差分方法Q-learning和sarsa的區別

深度學習方法（五）：卷積神經網路CNN經典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning

強化學習Q-learning 和 Sarsa

深度學習 lab16 強化學習筆記(Q-learning sarsa flappy bird)

【Machine Learning with Peppa】分享機器學習，數學，統計和程式設計乾貨

AI: 開始學習AI--Machine Learning 。二，建立機器學習資料模型。

增強學習（五）----- 時間差分學習(Q learning, Sarsa learning)

強化學習(五)：Sarsa演算法與Q-Learning演算法

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

Reinforcement Learning Q-learning 算法學習-2

table中td超出內容隱藏，鼠標懸停全部顯示(完整版，含js代碼)

Q-learning簡明實例Java代碼實現

元學習-Learning How to Learn-Q&A：Terry訪談錄

TD Learning，SARSA，Q Learning

相關推薦