DQN(Deep Reiforcement Learning) 發展歷程(四)
阿新 • • 發佈:2019-02-26
avi 基於模型 不同 com html 模型 list 參考 www
目錄
- 不基於模型的控制
- 選取動作的方法
- 在策略上的學習(on-policy)
- 不在策略上的學習(off-policy)
- 參考
DQN發展歷程(一)
DQN發展歷程(二)
DQN發展歷程(三)
DQN發展歷程(四)
DQN發展歷程(五)
不基於模型的控制
選取動作的方法
- 貪婪法,每次控制都選擇狀態值最大的動作,容易局部收斂,找不到全局最優。
- 引入 epsilon-greedy,按 epsilon 的概率隨機選擇一個動作,按 1 - epsilon 的概率使用貪婪法,選擇狀態值最大的動作
在策略上的學習(on-policy)
- 代表方法:SARSA
- 每次按 epsilon-greedy 更新策略後,也按此方法更新後的策略選擇下一步的動作。
不在策略上的學習(off-policy)
- 代表方法:Q-learning
- 更新策略和 SARSA 不同,每次直接按照貪婪法選擇最大狀態值來更新狀態,但是選擇動作時仍然使用 epsilon-greedy
參考
david siver 課程
https://home.cnblogs.com/u/pinard/
DQN(Deep Reiforcement Learning) 發展歷程(四)