深度增強學習方向論文整理
阿新 • • 發佈:2019-01-28
作者:Alex-zhai
連結:https://zhuanlan.zhihu.com/p/23600620
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
一. 開山鼻祖DQN
七. 基於外部記憶模組的DRL模型
連結:https://zhuanlan.zhihu.com/p/23600620
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
一. 開山鼻祖DQN
二. DQN的各種改進版本(側重於演算法上的改進)
5. Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.三. DQN的各種改進版本(側重於模型的改進)
四. 基於策略梯度的深度強化學習
深度策略梯度:
深度行動者評論家演算法:
搜尋與監督:
2. Interactive Control of Diverse Complex Characters with Neural Networks
連續動作空間下探索改進:
1. Curiosity-driven Exploration in DRL via Bayesian Neuarl Networks
結合策略梯度和Q學習:
其它策略梯度文章:
五. 分層DRL
六. DRL中的多工和遷移學習
1. ADAAPT: A Deep Architecture for Adaptive Policy Transfer from Multiple Sources七. 基於外部記憶模組的DRL模型
八. DRL中探索與利用問題
九. 多Agent的DRL
十. 逆向DRL
十一. 探索+監督學習
十二. 非同步DRL
十三:適用於難度較大的遊戲場景
十四:單個網路玩多個遊戲
十五:德州poker
十六:Doom遊戲
十七:大規模動作空間
十八:引數化連續動作空間
十九:Deep Model
二十:DRL應用
機器人領域:
機器翻譯:
目標定位:
目標驅動的視覺導航:
自動調控引數:
人機對話:
視訊預測:
文字到語音:
文字生成:
文字遊戲:
無線電操控和訊號監控:
DRL來學習做物理實驗:
DRL加速收斂:
利用DRL來設計神經網路:
控制訊號燈:
二十一:其它方向
避免危險狀態:DRL中On-Policy vs. Off-Policy 比較: