1. 程式人生 > >伯克利、OpenAI等提出基於模型的元策略優化強化學習

伯克利、OpenAI等提出基於模型的元策略優化強化學習

基於模型的強化學習方法資料效率高,前景可觀。本文提出了一種基於模型的元策略強化學習方法,實踐證明,該方法比以前基於模型的方法更能夠應對模型缺陷,還能取得與無模型方法相近的效能。

引言

強化學習領域近期取得的很多成就都是通過無模型強化學習演算法 [1,2,3] 實現的。無模型(MF)演算法傾向於實現最佳效能,通常可應用且易於實現。

然而,這是以資料密集為代價實現的,當與諸如神經網路的大容量函式近似器結合時,情況會惡化。它們的高樣本複雜性阻礙其應用於機器人控制任務,在這些任務上收集資料代價高昂。

相比之下,基於模型的(MB)強化學習方法可以通過明顯更少的樣本來學習。這類學習方法使用習得的環境動態模型,而此模型能夠執行策略優化。學習動態模型能以樣本高效的方式完成,因為它們是用標準的監督學習技術訓練而成,允許使用非策略資料。

然而,精確的動態模型往往比良好的策略複雜得多。例如,將水倒入杯中可以通過相當簡單的策略來實現,但是對該任務的潛在動態進行建模是非常複雜的。

因此,基於模型的方法只能在更有限的一系列問題上學習良好的策略,即使學習了良好的政策,它們的表現通常也會遠低於無模型的方法 [4,5]。

基於模型的方法傾向於依靠準確(學習到的)的動態模型來解決任務。如果動態模型不夠精確,則策略優化容易過度擬合模型的缺陷,導致次優行為甚至是災難性故障。

該問題在文獻中被稱為模型偏差 [6]。以前的研究試圖通過表徵模型的不確定性和學習魯棒的策略來減輕模型偏差 [6,7,8,9,10],通常使用集合來表示後驗。本文也使用集合,但卻截然不同。

本文提出基於模型的元策略優化(MB-MPO),這是以前基於模型的 RL 方法的正交版本:傳統的基於模型的 RL 方法要求學習到的動態模型足夠準確,以便學習在現實世界中也能取得成功的策略,但是本文提出的方法放棄了對這種準確性的依賴。它通過學習動態模型集合並將策略優化步驟構建為元學習問題來實現同樣的目標。

在 RL 中,元學習旨在學習一種能夠快速適應新任務或環境的策略 [11,12,13,14,15]。使用模型作為學習模擬器,MB-MPO 學習的策略可以通過一個梯度步快速地適應任何合適的動態模型。該優化目標引導元策略在集合中實現內部一致的動態預測,同時將模型間最佳行為的負擔轉移到適應步驟。

這樣下來,學習到策略表現出較少的模型偏差,因此不必保守行事。儘管在如何收集軌跡樣本和訓練動態模型方面與先前的 MB 方法有很多相同之處,但是用於策略優化(和依賴)的學習到的動態模型從根本上是不同的。

在本文中,研究者展示了 1)基於模型的策略優化可以學習與無模型方法中漸近效能相匹配的策略,同時顯著提高取樣效率,2)MB-MPO 在較難的控制任務方面始終優於以前基於模型的方法,3)當模型存在很大的偏差時,仍然可以學習。

本文方法的低樣本複雜性使其適用於真實世界的機器人。例如,它能夠在兩小時內基於真實資料, 找到高維且複雜的四維運動世界的最優策略。請注意,使用無模型方法學習此類策略所需的資料量要高出 10 倍- 100 倍,並且研究者所知,之前的基於模型的方法在此類任務中無法獲得與無模型相近的效能。

論文:Model-Based Reinforcement Learning via Meta-Policy Optimization

論文地址:https://arxiv.org/abs/1809.05214

基於模型的強化學習方法資料效率高,前景可觀。然而,由於學習動態模型的挑戰在於完全匹配現實世界的動態,研究者們努力實現與無模型方法相同的漸近效能。他們提出了基於模型的元策略優化(MB-MPO),這種方法放棄了對精準可學習動態模型的強烈依賴。

使用可學習動態模型集合,MB-MPO 元學習學會了通過策略梯度步快速適應集合中任何模型的策略。這驅使元策略在模型集合中實現內部一致的動態預測,同時將模型間最佳行為的負擔轉移到適應步驟。

實驗表明,MB-MPO 比以前基於模型的方法更能夠應對模型缺陷。最後,我們證明了本文的方法能夠取得與無模型方法相近的效能,同時需要的經驗更少。

實驗

我們實驗評估的目的是測試以下問題:1)MBMPO 如何與最先進的無模型和基於模型的方法對比樣本複雜性和漸近效能?2)模型的不確定性如何影響策略的可塑性?3)我們的方法對不完美模型有多魯棒?

為了回答以上問題,我們在 Mujoco 模擬器中針對六個連續控制基準任務評估了該方法 [44]。附錄 A.3 中給出了環境配置以及實驗設定的詳細描述。

在接下來的所有實驗中,更新前策略用於報告使用該方法獲得的平均獎勵。報告的效能至少是三個隨機種子的平均值。原始碼和實驗資料可在我們的補充網站上找到。

圖 8:實驗中使用的 Mujoco 環境。從左到右:游泳的人,獵豹,2D 行人,PR 2,跳蟲,螞蟻。

圖 1:MB-MPO(「我們的」)的學習曲線和六種不同的 Mujoco 環境中四種最先進的無模型方法,基準為 200 時間步。MB-MPO 能夠在降低兩個數量級的樣本上達到無模型方法的漸近效能。

圖 5:該方法有無模型改動的比較。描述了在獵豹環境中使用三個不同的隨機種子進行訓練期間平均回報的變化,其中基準為 1000 個時間步長。

演算法

在下文中,我們描述了該方法的整體演算法(參見演算法 1)。首先,我們使用不同的隨機權重初始化模型和策略。然後,繼續收集資料。在第一次迭代中,使用隨機控制器收集來自現實世界的資料,並存儲在緩衝器 D 中。

在隨後的迭代中,利用適應的策略 {πθ01,...,πθ0K} 收集來自現實世界的軌跡,然後與來自先前迭代的軌跡聚合。根據 4.1 節中闡述的步驟,使用聚合的實際環境樣本對模型進行訓練。

該演算法通過使用策略 πθ 從每個模型集合 {fφ1,...,fφK} 自動生成軌跡來進行。這些軌跡用於執行內部適應策略梯度步,產生適應的策略 {πθ01,...,πθ0K}。最後,研究者使用適應的策略 πθ0k 和模型 fφk 生成虛擬軌跡,並優化元目標的策略(如 4.2 節中所述)。重複這些步驟,直到達到預期的效能。該演算法返回優化的更新前引數 θ。