深度強化學習——A3C

聯絡方式：[email protected]

非同步的優勢行動者評論家演算法（Asynchronous Advantage Actor-Critic，A3C）是Mnih等人根據非同步強化學習（Asynchronous Reinforcement Learning， ARL）的思想，提出的一種輕量級的 DRL 框架，該框架可以使用非同步的梯度下降法來優化網路控制器的引數，並可以結合多種RL演算法。

一、問題與貢獻

存在的問題
不同型別的深度神經網路為 DRL 中策略優化任務提供了高效執行的表徵形式。為了緩解傳統策略梯度方法與神經網路結合時出現的不穩定性，各類深度策略梯度方法（如 DDPG、 SVG 等）都採用了經驗回放機制來消除訓練資料間的相關性。

然而經驗回放機制存在兩個問題：

agent 與環境的每次實時互動都需要耗費很多的記憶體和計算力；
經驗回放機制要求 agent 採用離策略（off-policy）方法來進行學習，而off-policy方法只能基於舊策略生成的資料進行更新；

此外，過往DRL的訓練都依賴於計算能力很強的圖形處理器（如GPU）

論文貢獻

非同步地執行多個 agent，通過並行的 agent 經歷的不同狀態，去除訓練過程中產生的狀態轉移樣本之間的關聯性；
只需一個標準的多核CPU即可實現演算法，在效果、時間和資源消耗上都優於傳統方法。

適用範圍：
on-policy：sarsa, n-step methods, actor-critic
off-policy：Q-Learning
離散、連續型動作控制

二、RL背景知識

Value-Based（或Q-Learning）和Policy-Based（或Policy Gradients）是強化學習中最重要的兩類方法，區別在於

Value-Based是預測某個State下所有Action的期望價值（Q值），之後通過選擇最大Q值對應的Action執行策略，適合僅有少量離散取值的Action的環境；
Policy-Based是直接預測某個State下應該採取的Action，適合高維連續Action的環境，更通用；

根據是否對State的變化進行預測，RL又可以分為model-based和model-free：

model-based，根據State和採取的Action預測接下來的State，並利用這個資訊訓練強化學習模型（知道狀態的轉移概率）；

model-free，不需對環境狀態進行任何預測，也不考慮行動將如何影響環境，直接對策略或Action的期望價值進行預測，計算效率非常高。

因為複雜環境中難以使用model預測接下來的環境狀態，所以傳統的DRL都是基於model-free。

1. Value-Based & model-free

t時刻開始到情節結束時，總回報：

Rt=∑k=0∞γkrt+k
狀態價值函式
Vπ(s)=E[Rt|st=s]
動作價值函式
Qπ(s,a)=E[Rt|st=s,a]
DQN的Loss Function
L(θi)=E[(TargetQ−Q(s,a;θi))2]
TargetQ=r+γmaxa′Q(s′,a′;θ−i)
上面的Loss Function基於one-step Q-learning。
所謂one-step是計算Target Q值時只看下一個State，而n-step則是計算了後續n步的State，即
TargetQ=rt+γrt+1+⋯+γn−1rt+n−1+γnmaxa′Q(s′,a′;θ−i)

One-step的缺點：
只直接影響產生回報r的pair(s, a)的Value，其他pairs的Value只能通過Q(s，a)間接影響，造成學習速度很慢。

n-step的優點：
一個回報r直接影響先前n個pairs，學習更有效。

2. Policy-Based & model-free

直接將策略引數化

π(a|s,θ)
通過迭代更新 θ，使總回報期望 E[Rt] 梯度上升。
具體地
這裡寫圖片描述

①中，π(at|st;θ)表示在 st,θ 的情況下選擇動作 at 的概率。概率的對數乘以該動作的總回報 Rt，對 θ 求梯度，以梯度上升的方式更新 θ 。該公式的意義在於，回報越高的動作越努力提高它出現的概率。

但是某些情形下，每個動作的總回報 Rt 都不為負，那麼所有的梯度值都大於等於0，此時每個動作出現的概率都會提高，這在很大程度下減緩了學習的速度，而且也會使梯度的方差很大。因此需要對 Rt 使用某種標準化操作來降低梯度的方差。

②具體地，可以讓 Rt 減去一個基線 b（baseline），b 通常設為 Rt 的一個期望估計，通過求梯度更新 θ，總回報超過基線的動作的概率會提高，反之則降低，同時還可以降低梯度方差（證明略）。這種方式被叫做行動者-評論家（actor-critic）體系結構，其中策略 π 是行動者，基線 bt 是評論家。

③在實際中，Rt−bt(st) 可使用動作優勢函式 Aπ(at,st)=Qπ(at,st)−Vπ(st)代替，因為 Rt 可以視為 Qπ(at,st) 的估計，基線 bt(st) 視為

深度強化學習——A3C

聯絡方式：[email protected] 非同步的優勢行動者評論家演算法（Asynchronous Advantage Actor-Critic，A3C）是Mnih等人根據非同步強化學習（Asynchronous Reinforcement

深度強化學習演算法 A3C （Actor-Critic Algorithm）

對於 A3C 演算法感覺自己總是一知半解，現將其梳理一下，記錄在此，也給想學習的小夥伴一個參考。　　想要認識清楚這個演算法，需要對 DRL 的演算法有比較深刻的瞭解，推薦大家先了解下 Deep Q-learning 和 Policy Gradient 演

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

alt blue fun tor 深度 ase gree equal bubuko gree

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

line batch cto online fit tro function 技術分享 rap in most AC algorithms, we actually just fit valu

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

ted 分享圖片 enc cti solution function part related ons -------------------------------------------------------------------------------

CS294-112 深度強化學習秋季學期（伯克利）NO.9 Learning policies by imitating optimal controllers

image TP 分享圖片 BE http com bubuko cos .com

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

nbsp setting TP for agent image learn ctu Go

深度強化學習——A3C

一、問題與貢獻

二、RL背景知識

1. Value-Based & model-free

2. Policy-Based & model-free

深度強化學習——A3C

深度強化學習演算法 A3C （Actor-Critic Algorithm）

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

CS294-112 深度強化學習秋季學期（伯克利）NO.9 Learning policies by imitating optimal controllers

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

深度強化學習（一）： Deep Q Network(DQN)

深度強化學習綜述(上)

深度強化學習 Deep Reinforcement Learning 學習整理

【李巨集毅深度強化學習2018】P3 Q-learning（Basic Idea）

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

深度強化學習資源介紹

跟著AlphaGo 理解深度強化學習框架

深度強化學習cs294 Lecture8: Deep RL with Q-Function

深度強化學習cs294 Lecture7: Value Function Methods

深度強化學習cs294 Lecture6: Actor-Critic Algorithms

深度強化學習cs294 Lecture5: Policy Gradients Introduction

深度強化學習cs294 HW1: Imitation Learning

深度強化學習cs294 Lecture3&Lecture4: Introduction to Reinforcement Learning

深度強化學習——A3C

一、問題與貢獻

二、RL背景知識

1. Value-Based & model-free

2. Policy-Based & model-free

相關推薦