1. 程式人生 > >深度強化學習—DQN

深度強化學習—DQN

一、DQN

將卷積神經網路(CNN)和Q-Learning結合起來。CNN的輸入是原始影象資料(作為狀態State),輸出則是每個動作Action對應的價值評估Value Function(Q值)。

二、DL與RL結合

問題: 1、DL需要大量帶標籤的樣本進行監督學習;RL只有reward返回值,而且伴隨著噪聲,延遲(過了幾十毫秒才返回),稀疏(很多State的reward是0)等問題; 2、DL的樣本獨立;RL前後state狀態相關; 3、DL目標分佈固定;RL的分佈一直變化,比如你玩一個遊戲,一個關卡和下一個關卡的狀態分佈是不同的,所以訓練好了前一個關卡,下一個關卡又要重新訓練; 4、過往的研究表明,使用非線性網路表示值函式時出現不穩定等問題。

DQN解決方法: 1、通過Q-Learning使用reward來構造標籤(對應問題1) 2、通過experience replay(經驗池)的方法來解決相關性及非靜態分佈問題(對應問題2、3) 3、使用一個CNN(MainNet)產生當前Q值,使用另外一個CNN(Target)產生Target Q值(對應問題4) 1、構造標籤