深度強化學習——DQN

阿新 • • 發佈：2019-01-25

一、DRL

原因：在普通的Q-learning中，當狀態和動作空間是離散且維數不高時可使用Q-Table儲存每個狀態動作對的Q值，而當狀態和動作空間是高維連續時，使用Q-Table不現實。

通常做法是把Q-Table的更新問題變成一個函式擬合問題，相近的狀態得到相近的輸出動作。如下式，通過更新引數 θ 使Q函式逼近最優Q值

Q(s,a;θ)≈Q′(s,a) 而深度神經網路可以自動提取複雜特徵，因此，面對高維且連續的狀態使用深度神經網路最合適不過了。

DRL是將深度學習（DL）與強化學習（RL）結合，直接從高維原始資料學習控制策略。而DQN是DRL的其中一種演算法，它要做的就是將卷積神經網路（CNN）和Q-Learning結合起來，CNN的輸入是原始影象資料（作為狀態State），輸出則是每個動作Action對應的價值評估Value Function（Q值）。

二、DL與RL結合的問題

DL需要大量帶標籤的樣本進行監督學習；RL只有reward返回值，而且伴隨著噪聲，延遲（過了幾十毫秒才返回），稀疏（很多State的reward是0）等問題；
DL的樣本獨立；RL前後state狀態相關；
DL目標分佈固定；RL的分佈一直變化，比如你玩一個遊戲，一個關卡和下一個關卡的狀態分佈是不同的，所以訓練好了前一個關卡，下一個關卡又要重新訓練；
過往的研究表明，使用非線性網路表示值函式時出現不穩定等問題。

三、DQN解決問題方法

通過Q-Learning使用reward來構造標籤（對應問題1）
通過experience replay（經驗池）的方法來解決相關性及非靜態分佈問題（對應問題2、3）

使用一個CNN（MainNet）產生當前Q值，使用另外一個CNN（Target）產生Target Q值（對應問題4）

1、構造標籤

前面提到DQN中的CNN作用是對在高維且連續狀態下的Q-Table做函式擬合，而對於函式優化問題，監督學習的一般方法是先確定Loss Function，然後求梯度，使用隨機梯度下降等方法更新引數。DQN則基於Q-Learning來確定Loss Function。

Q-Learning
有關RL的基礎知識不再囉嗦，直接看Q-Learning的更新公式：

Q∗(s,a)=Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a))
而DQN的Loss Function為 L

(θ)=E[(TargetQ−Q(s,a;θ))2]
其中 θ 是網路引數，目標為 TargetQ=r+γmaxa′Q(s′,a′;θ)

顯然Loss Function是基於Q-Learning更新公式的第二項確定的，兩個公式意義相同，都是使當前的Q值逼近Target Q值。

接下來，求 L(θ) 關於 θ 的梯度，使用SGD等方法更新網路引數 θ。

2、經驗池（experience replay）

經驗池的功能主要是解決相關性及非靜態分佈問題。具體做法是把每個時間步agent與環境互動得到的轉移樣本 (st,at,rt,st+1) 儲存到回放記憶單元，要訓練時就隨機拿出一些（minibatch）來訓練。（其實就是將遊戲的過程打成碎片儲存，訓練時隨機抽取就避免了相關性問題）

3、目標網路

在Nature 2015版本的DQN中提出了這個改進，使用另一個網路（這裡稱為TargetNet）產生Target Q值。具體地，Q(s,a;θi) 表示當前網路MainNet的輸出，用來評估當前狀態動作對的值函式；Q(s,a;θ−i) 表示TargetNet的輸出，代入上面求 TargetQ 值的公式中得到目標Q值。根據上面的Loss Function更新MainNet的引數，每經過N輪迭代，將MainNet的引數複製給TargetNet。

引入TargetNet後，再一段時間裡目標Q值使保持不變的，一定程度降低了當前Q值和目標Q值的相關性，提高了演算法穩定性。

四、DQN演算法流程

1、網路模型

這裡寫圖片描述

輸入的是被處理成灰度圖的最近4幀 84×84 影象，經過幾個卷積層（沒有池化層）後接兩個全連線層，輸出是所有動作的Q值。

2、演算法虛擬碼

NIPS 2013版
這裡寫圖片描述

Nature 2015版
這裡寫圖片描述

2、演算法流程圖（2015版）

主要流程圖
這裡寫圖片描述

Loss Function 的構造
這裡寫圖片描述

五、總結

DQN是第一個將深度學習模型與強化學習結合在一起從而成功地直接從高維的輸入學習控制策略。

創新點：

基於Q-Learning構造Loss Function（不算很新，過往使用線性和非線性函式擬合Q-Table時就是這樣做）。
通過experience replay（經驗池）解決相關性及非靜態分佈問題；
使用TargetNet解決穩定性問題。

優點：

演算法通用性，可玩不同遊戲；
End-to-End 訓練方式；
可生產大量樣本供監督學習。

缺點：

無法應用於連續動作控制；
只能處理只需短時記憶問題，無法處理需長時記憶問題（後續研究提出了使用LSTM等改進方法）；
CNN不一定收斂，需精良調參。

深度強化學習—DQN

一、DQN 將卷積神經網路（CNN）和Q-Learning結合起來。CNN的輸入是原始影象資料（作為狀態State），輸出則是每個動作Action對應的價值評估Value Function（Q值）。

深度強化學習——DQN

一、DRL 原因：在普通的Q-learning中，當狀態和動作空間是離散且維數不高時可使用Q-Table儲存每個狀態動作對的Q值，而當狀態和動作空間是高維連續時，使用Q-Table不現實。通常做法是把Q-Table的更新問題變成一個函式擬合問題，相近的狀態得到相近的輸出動作。如下式，通過更新引數 θ

深度強化學習 ( DQN ) 初探

1. Google的DQN論文 Atari 2600是80年代風靡美國的遊戲機，總共包括49個獨立的遊戲，其中不乏我們熟悉的Breakout（打磚塊），Galaxy Invaders（小蜜蜂）等經典遊戲。Google演算法的輸入只有遊戲螢幕的影象和遊戲的得分，在沒有人

深度強化學習及其在自動駕駛中的應用: DRL&ADS系列之(2): 深度強化學習DQN原理

專欄系列文章規劃上一篇文章《DRL&ADS系列之(1): 強化學習概述》已經講解了利用神經網路近似值函式的方法，即： V̂ (s,w)≈Vπ(s)q̂ (s,a,w)≈qπ(s,a)(1)(1)V^(s,w)≈Vπ(s)q^(s,a,w)≈

深度強化學習（一）： Deep Q Network(DQN)

原文：https://blog.csdn.net/LagrangeSK/article/details/80321265 一、背景 DeepMind2013年的論文《Playing Atari with Deep Reinforcement Learning》指

ROS開發筆記（9）——ROS 深度強化學習應用之keras版本dqn程式碼分析

在ROS開發筆記（8）中構建了ROS中DQN演算法的開發環境，在此基礎上，對演算法程式碼進行了分析，並做了簡單的修改：修改1 ：改變了儲存模型引數在迴圈中的位置，原來是每個10整數倍數回合裡面每一步都修改（相當於修改episode_step次），改成了每個10整數倍數

重磅 | 詳解深度強化學習，搭建DQN詳細指南（附論文）

選自 Nervana 作者：Tambet Matiisen 機器之心編譯參與：Rick、李亞洲、吳攀本文為作者 Tambet Matiisen 在 Nervana 上發表的有關深度強化學習的系列博文，分為兩部分：第一部分作者對 DeepMind 提出的深度強

深度強化學習——從DQN到DDPG

引言深度強化學習最近取得了很多進展，並在機器學習領域得到了很多的關注。傳統的強化學習侷限於動作空間和樣本空間都很小，且一般是離散的情境下。然而比較複雜的、更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間。實現端到端的控制也是要求能處理高維的，如影象、聲音等的資料輸入。前些年開始興起的深度學習，剛

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

alt blue fun tor 深度 ase gree equal bubuko gree

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

line batch cto online fit tro function 技術分享 rap in most AC algorithms, we actually just fit valu

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

ted 分享圖片 enc cti solution function part related ons -------------------------------------------------------------------------------

CS294-112 深度強化學習秋季學期（伯克利）NO.9 Learning policies by imitating optimal controllers

image TP 分享圖片 BE http com bubuko cos .com

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

nbsp setting TP for agent image learn ctu Go

深度強化學習——DQN

一、DRL

二、DL與RL結合的問題

三、DQN解決問題方法

1、構造標籤

2、經驗池（experience replay）

3、目標網路

四、DQN演算法流程

1、網路模型

2、演算法虛擬碼

2、演算法流程圖（2015版）

五、總結

深度強化學習—DQN

深度強化學習——DQN

深度強化學習 ( DQN ) 初探

深度強化學習及其在自動駕駛中的應用: DRL&ADS系列之(2): 深度強化學習DQN原理

深度強化學習（一）： Deep Q Network(DQN)

ROS開發筆記（9）——ROS 深度強化學習應用之keras版本dqn程式碼分析

重磅 | 詳解深度強化學習，搭建DQN詳細指南（附論文）

深度強化學習——從DQN到DDPG

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

CS294-112 深度強化學習秋季學期（伯克利）NO.9 Learning policies by imitating optimal controllers

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

深度強化學習綜述(上)

深度強化學習演算法 A3C （Actor-Critic Algorithm）

深度強化學習 Deep Reinforcement Learning 學習整理

【李巨集毅深度強化學習2018】P3 Q-learning（Basic Idea）

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

深度強化學習資源介紹

強化學習 DQN演算法

深度強化學習——DQN

一、DRL

二、DL與RL結合的問題

三、DQN解決問題方法

1、構造標籤

2、經驗池（experience replay）

3、目標網路

四、DQN演算法流程

1、網路模型

2、演算法虛擬碼

2、演算法流程圖（2015版）

五、總結

相關推薦