1. 程式人生 > >DQN(Deep Reiforcement Learning) 發展歷程(四)

DQN(Deep Reiforcement Learning) 發展歷程(四)

avi 基於模型 不同 com html 模型 list 參考 www

目錄

  • 不基於模型的控制
    • 選取動作的方法
    • 在策略上的學習(on-policy)
    • 不在策略上的學習(off-policy)
  • 參考

DQN發展歷程(一)

DQN發展歷程(二)

DQN發展歷程(三)

DQN發展歷程(四)

DQN發展歷程(五)

不基於模型的控制

選取動作的方法

  • 貪婪法,每次控制都選擇狀態值最大的動作,容易局部收斂,找不到全局最優。
  • 引入 epsilon-greedy,按 epsilon 的概率隨機選擇一個動作,按 1 - epsilon 的概率使用貪婪法,選擇狀態值最大的動作

在策略上的學習(on-policy)

  • 代表方法:SARSA
  • 每次按 epsilon-greedy 更新策略後,也按此方法更新後的策略選擇下一步的動作。

不在策略上的學習(off-policy)

  • 代表方法:Q-learning
  • 更新策略和 SARSA 不同,每次直接按照貪婪法選擇最大狀態值來更新狀態,但是選擇動作時仍然使用 epsilon-greedy

參考

david siver 課程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 發展歷程(四)