深度強化學習——A3C
聯絡方式:[email protected]
非同步的優勢行動者評論家演算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根據非同步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一種輕量級的 DRL 框架,該框架可以使用非同步的梯度下降法來優化網路控制器的引數,並可以結合多種RL演算法。
一、問題與貢獻
存在的問題
不同型別的深度神經網路為 DRL 中策略優化任務提供了高效執行的表徵形式。 為了緩解傳統策略梯度方法與神經網路結合時出現的不穩定性,各類深度策略梯度方法(如 DDPG、 SVG 等)都採用了經驗回放機制來消除訓練資料間的相關性。
然而經驗回放機制存在兩個問題:
- agent 與環境的每次實時互動都需要耗費很多的記憶體和計算力;
- 經驗回放機制要求 agent 採用離策略(off-policy)方法來進行學習,而off-policy方法只能基於舊策略生成的資料進行更新;
此外,過往DRL的訓練都依賴於計算能力很強的圖形處理器(如GPU)
論文貢獻
非同步地執行多個 agent, 通過並行的 agent 經歷的不同狀態,去除訓練過程中產生的狀態轉移樣本之間的關聯性;
只需一個標準的多核CPU即可實現演算法,在效果、時間和資源消耗上都優於傳統方法。
適用範圍:
on-policy:sarsa, n-step methods, actor-critic
off-policy:Q-Learning
離散、連續型動作控制
二、RL背景知識
Value-Based(或Q-Learning)和Policy-Based(或Policy Gradients)是強化學習中最重要的兩類方法,區別在於
- Value-Based是預測某個State下所有Action的期望價值(Q值),之後通過選擇最大Q值對應的Action執行策略,適合僅有少量離散取值的Action的環境;
- Policy-Based是直接預測某個State下應該採取的Action,適合高維連續Action的環境,更通用;
根據是否對State的變化進行預測,RL又可以分為model-based和model-free:
- model-based,根據State和採取的Action預測接下來的State,並利用這個資訊訓練強化學習模型(知道狀態的轉移概率);
- model-free,不需對環境狀態進行任何預測,也不考慮行動將如何影響環境,直接對策略或Action的期望價值進行預測,計算效率非常高。
因為複雜環境中難以使用model預測接下來的環境狀態,所以傳統的DRL都是基於model-free。
1. Value-Based & model-free
t時刻開始到情節結束時,總回報:
狀態價值函式
動作價值函式
DQN的Loss Function
上面的Loss Function基於one-step Q-learning。
所謂one-step是計算Target Q值時只看下一個State,而n-step則是計算了後續n步的State,即
One-step的缺點:
只直接影響產生回報r的pair(s, a)的Value,其他pairs的Value只能通過Q(s,a)間接影響,造成學習速度很慢。
n-step的優點:
一個回報r直接影響先前n個pairs,學習更有效。
2. Policy-Based & model-free
直接將策略引數化
通過迭代更新
具體地
①中,
但是某些情形下,每個動作的總回報
②具體地,可以讓
③在實際中,