1. 程式人生 > >深度增強學習方向論文整理

深度增強學習方向論文整理

作者:Alex-zhai
連結:https://zhuanlan.zhihu.com/p/23600620
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。

一. 開山鼻祖DQN

二. DQN的各種改進版本(側重於演算法上的改進)

5. Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.

三. DQN的各種改進版本(側重於模型的改進)

四. 基於策略梯度的深度強化學習

深度策略梯度:

深度行動者評論家演算法:

搜尋與監督:

2. Interactive Control of Diverse Complex Characters with Neural Networks

連續動作空間下探索改進:

1. Curiosity-driven Exploration in DRL via Bayesian Neuarl Networks

結合策略梯度和Q學習:

其它策略梯度文章:

五. 分層DRL

六. DRL中的多工和遷移學習

1. ADAAPT: A Deep Architecture for Adaptive Policy Transfer from Multiple Sources

七. 基於外部記憶模組的DRL模型

八. DRL中探索與利用問題


九. 多Agent的DRL

十. 逆向DRL

十一. 探索+監督學習

十二. 非同步DRL

十三:適用於難度較大的遊戲場景

十四:單個網路玩多個遊戲

十五:德州poker

十六:Doom遊戲

十七:大規模動作空間

十八:引數化連續動作空間

十九:Deep Model

二十:DRL應用

機器人領域:

機器翻譯:

目標定位:

目標驅動的視覺導航:

自動調控引數:

人機對話:

視訊預測:

文字到語音:

文字生成:

文字遊戲:

無線電操控和訊號監控:

DRL來學習做物理實驗:

DRL加速收斂:

利用DRL來設計神經網路:

控制訊號燈:

二十一:其它方向

避免危險狀態:

DRL中On-Policy vs. Off-Policy 比較:

注1:小夥伴們如果覺得論文一個個下載太麻煩,可以私信我,我打包發給你。

注2:歡迎大家及時補充新的或者我疏漏的文獻。