1. 程式人生 > 其它 >用示範克服強化學習中的探索

用示範克服強化學習中的探索

主要內容:
對比遊戲和機器人領域,關鍵的區別在於探索的難度,這取決於獎勵函式的選擇和複雜的環境動態性。在博弈中,獎勵函式通常是給定的,可以直接進行優化,最新的研究表明,使用稀疏獎勵學習可以得到執行期望目標的策略,而不是陷入區域性最優。但是獎勵稀疏的環境中進行探索是困難的,智慧體很少看到獎勵訊號。本文的方法建立在深度確定性策略(Deep Deterministic Policy Gradients)和後見經驗回放(Hindsight Experience Replay) 的基礎之上,並且只做了一點額外的假設,我們可以收集少量的演示資料,可以用來在獎勵稀疏的環境中進行探索。實驗解決了從一個隨機的初始狀態開始,在給定的位置堆疊多個塊。

我們在演示中引入了一個簡單的輔助目標,一種在學習到的策略優於演示時消除演示效果的方法,以及一種從演示狀態重置的方法,可以顯著改進和加速訓練策略。

  • 演示的輔助目標定義為 RL 智慧體採取的動作與演示資料中演示者採取的動作之間的相似性,這鼓勵 RL 智慧體採取與演示者所採取的動作相似的動作,這可以幫助 RL 智慧體從演示中更有效地學習。
  • 消除演示效果的方法是一種隨著 RL 智慧體學習逐漸降低演示重要性的方法,這是通過隨著時間的推移減少演示的輔助目標的權重來完成的。隨著 RL agent 效能的提高,輔助目標的權重降低,允許 RL agent 更自由地探索和學習自己的經驗。
  • 從演示狀態重置的方法是一種通過將環境重置為演示資料中的初始狀態來改進 RL 智慧體訓練的方法。這允許 RL 代理從與演示者相似的狀態開始,這可以幫助 RL 代理更有效地學習並避免陷入次優狀態。

本文使用的方法:
Reinforcement Learning、DDPG、Multi-Goal RL、Hindsight Experience Replay (HER)
HER的關鍵見解是,即使在沒有獲得獎勵的失敗的推出中,代理人也可以通過假設在推出中看到的狀態是實際的目標,將其轉化為成功的目標。對於代理所經歷的每個情節,我們將其儲存在回放緩衝區中兩次:一次與情節中追求的原始目標,一次與情節中達到的最終狀態對應的目標,好像代理從一開始就打算達到這個狀態。
本文中的方法通過多種方式將DDPG和演示相結合,以最大限度地利用演示來提高學習。

  • 演示緩衝區
    維護第二個回放緩衝區,在這裡存放我們的演示資料。
  • 行為克隆損失
    本文引入了一個新的損失計算僅在演示資料上用來訓練Actor。
  • Q-Filter
    文中將行為克隆損失僅應用於Critic來判定演示者的行動優於Actor的行動。
  • 重置到演示狀態
    為了克服超長視域任務中獎勵稀疏的問題,我們利用演示片段中的狀態和目標重置了一些訓練片段。這裡我們做了一個額外的假設,即我們可以從給定的狀態重新啟動訓練。

提供演示可能是向學習系統提供先驗資訊的一種有用方式,因為它允許系統通過觀察知識淵博的教師的行為來學習,而不是僅僅依賴於系統本身編碼的專家知識。這可以幫助系統更有效地學習,也可以讓學習過程對使用者來說更直觀。此外,提供演示允許學習系統從現實世界的示例中學習,這可以使其獲得的知識更適用於它正在接受培訓以執行的任務。

文章資訊
原文:Overcoming Exploration in Reinforcement Learning with Demonstrations
原始碼:無
申明:版權歸原文作者及出版單位所有,如有侵權請聯絡刪除