1. 程式人生 > 其它 >2017-Learning to reinforcement learn

2017-Learning to reinforcement learn

Key

元學習系統(監督+從屬)擴充套件於RL設定
LSTM用強化學習演算法進行訓練,可以使agent獲得一定的學習適應能力

解決的主要問題

  • DRL受限於特定的領域
  • DRL訓練需要大量的資料

作者參考了Hochreiter在2001年發表的Learning to Learn Using Gradient Descent論文的方法:(1)元學習系統由從屬系統和監督系統兩部分組成(2)迴圈網路可以在完全監督的環境下支援元學習


文章內容

  • Introduction

    使用標準的深度RL技術來訓練遞迴神經網路,以使遞迴網路實現其自己的獨立RL過程

    • 一個使用RL演算法訓練的系統,但它的遞迴動力學實現了另一個完全獨立的RL過程
    • 在適當的情況下,二級學習的RL程式可以顯示出原始RL程式所缺乏的適應性和樣本效率
  • Methods

    • 元學習結合神經網路(Hochreiter等人的相關方法)

    • DEEP META-RL
      Meta-Learning的輸入變成RL設定

      • agent接收到的輸入指示了上一步的動作輸出 和 該動作所產生的獎勵(critical),而不是將目標輸出作為輔助輸入。
      • 同樣的獎勵資訊被平行地提供給一個DRL程式,該程式調整迴圈網路的權值。
        它的策略更新過程(包括該過程的有效學習率等特性)可能與調整網路權值所涉及的過程有顯著差異
    • formalism

      • 一個適當結構的agent嵌入一個迴圈神經網路,通過與序列的互動來訓練MDP環境(也稱為任務)。

      • 在一個新的episode開始時,取樣一個新的MDP任務m ~ D和該任務的初始狀態,並重置agent的內部狀態(即,在其迴圈單位上的啟用模式)。然後,代理在此環境中針對一定數量的離散時間步長執行其動作選擇策略。在每一步t上,作為當前的整個歷史軌跡episode的的函式執行動作a。在當前發作期間,在MDP m中相互作用的agent的xtg(從episode開始,迴圈單元被重置)。訓練網路權重使所有步驟和片段的觀察獎勵總和最大化。

      • 訓練後,agent的策略是固定的(即權重是固定的,但由於環境的輸入和迴圈層的隱藏狀態,啟用是變化的),並對一組mdp進行評估,這些mdp要麼來自相同的分佈D,要麼是對該分佈稍加修改(以測試代理的泛化能力)。內部狀態在任何新episode的評估開始時被重置。

      • 由於代理學習到的策略是依賴於歷史的(因為它使用了一個迴圈網路),所以當暴露於任何新的MDP環境時,它能夠適應和部署一個策略,以優化該任務的回報

  • Experiments

    • 研究問題
      • meta-RL是否符合完全成熟的RL,可以在exploration and exploitation tradeoff
      • meta-RL是否可以提高學習效率
    • 實驗設定
      • 賭博機實驗
      • MARKOV DECISION PROBLEMS
  • Conclusion

    Deep Meta-RL包含三個成分的組合:
    (1)使用深度RL演算法訓練遞迴神經網路
    (2)包括一系列相互關聯的任務的訓練集
    (3)網路輸入,包括選擇的動作和在前一個時間點收到的獎勵
    Meta-RL關鍵:產生了一種利用任務結構中的不變性的學習認知學習演算法


文章方法的優缺點

  • 優點
    • 元學習思想使得RL利用之前的經驗資訊
    • 能夠快速適應新任務
  • 缺點
    • 基於上下文的,RL中在處理的時候需要一個完整episode
    • 泛化性適用範圍是在眾多MDP具有某種相似性的時候