2017-Learning to reinforcement learn
Key
元學習系統(監督+從屬)擴充套件於RL設定
LSTM用強化學習演算法進行訓練,可以使agent獲得一定的學習適應能力
解決的主要問題
- DRL受限於特定的領域
- DRL訓練需要大量的資料
作者參考了Hochreiter在2001年發表的Learning to Learn Using Gradient Descent論文的方法:(1)元學習系統由從屬系統和監督系統兩部分組成(2)迴圈網路可以在完全監督的環境下支援元學習
文章內容
-
Introduction
使用標準的深度RL技術來訓練遞迴神經網路,以使遞迴網路實現其自己的獨立RL過程
- 一個使用RL演算法訓練的系統,但它的遞迴動力學實現了另一個完全獨立的RL過程
- 在適當的情況下,二級學習的RL程式可以顯示出原始RL程式所缺乏的適應性和樣本效率
-
Methods
-
元學習結合神經網路(Hochreiter等人的相關方法)
-
DEEP META-RL
Meta-Learning的輸入變成RL設定- agent接收到的輸入指示了上一步的動作輸出 和 該動作所產生的獎勵(critical),而不是將目標輸出作為輔助輸入。
- 同樣的獎勵資訊被平行地提供給一個DRL程式,該程式調整迴圈網路的權值。
它的策略更新過程(包括該過程的有效學習率等特性)可能與調整網路權值所涉及的過程有顯著差異
-
formalism
-
一個適當結構的agent嵌入一個迴圈神經網路,通過與序列的互動來訓練MDP環境(也稱為任務)。
-
在一個新的episode開始時,取樣一個新的MDP任務m ~ D和該任務的初始狀態,並重置agent的內部狀態(即,在其迴圈單位上的啟用模式)。然後,代理在此環境中針對一定數量的離散時間步長執行其動作選擇策略。在每一步t上,作為當前的整個歷史軌跡episode的的函式執行動作a。在當前發作期間,在MDP m中相互作用的agent的xtg(從episode開始,迴圈單元被重置)。訓練網路權重使所有步驟和片段的觀察獎勵總和最大化。
-
訓練後,agent的策略是固定的(即權重是固定的,但由於環境的輸入和迴圈層的隱藏狀態,啟用是變化的),並對一組mdp進行評估,這些mdp要麼來自相同的分佈D,要麼是對該分佈稍加修改(以測試代理的泛化能力)。內部狀態在任何新episode的評估開始時被重置。
-
由於代理學習到的策略是依賴於歷史的(因為它使用了一個迴圈網路),所以當暴露於任何新的MDP環境時,它能夠適應和部署一個策略,以優化該任務的回報
-
-
-
Experiments
- 研究問題
- meta-RL是否符合完全成熟的RL,可以在exploration and exploitation tradeoff
- meta-RL是否可以提高學習效率
- 實驗設定
- 賭博機實驗
- MARKOV DECISION PROBLEMS
- 研究問題
-
Conclusion
Deep Meta-RL包含三個成分的組合:
(1)使用深度RL演算法訓練遞迴神經網路
(2)包括一系列相互關聯的任務的訓練集
(3)網路輸入,包括選擇的動作和在前一個時間點收到的獎勵
Meta-RL關鍵:產生了一種利用任務結構中的不變性的學習認知學習演算法
文章方法的優缺點
- 優點
- 元學習思想使得RL利用之前的經驗資訊
- 能夠快速適應新任務
- 缺點
- 基於上下文的,RL中在處理的時候需要一個完整episode
- 泛化性適用範圍是在眾多MDP具有某種相似性的時候