1. 程式人生 > 其它 >lec-4-Introduction to Reinforcement Learning

lec-4-Introduction to Reinforcement Learning

模仿學習imitation learning與RL的不同

  • 模仿學習中需要有專家指導的資訊
  • RL不需要訪問專家資訊

RL Definitions

  • 獎勵函式
  • 馬爾科夫決策鏈
    • 只與上一個狀態有關
  • 目的
  • 空間
    • 有限
      • 可找到最優引數
    • 無限
      • 證明p的概率分佈是個平穩分佈stationary distribution
  • 期望
    • 由於獎勵函式是不平滑的
      • 轉換: 但是可以優化 看似不平滑甚至稀疏的獎勵功能(不平滑or不可微的期望) 在可微且平穩的概率下的函式

演算法

  • 基本過程:

    • 生成樣本→調整模型/估計回報(評估policy)→提升策略policy→生成樣本
    • 各部分代價
      • 生成樣本
        Expensive:真實環境進行一次,也許代價會很高,機器人、車、電網等
        cheap:模擬環境
      • 評估policy
        expensive:學習神經網路大量引數
        cheap:MC等求均值等
      • 提升policy
        expensive:反向傳播大量引數求導
        cheap:回報均值梯度求導更新
  • Value Functions(基於值的)

    • 核心:第二步(評估policy)使用Q-function or value function
    • 定義
      • 期望:
      • Q-function:
      • Value function:
      • 關係:
      • Idea:
        Policy iteration:Policy+Q-function → improve policy
        比較QandV,if Q>V, 計算梯度增加動作概率
  • 演算法型別

    • Policy gradients
    • Value-based:擬合/評估Q、V
    • Actor-critic
    • Model-based RL:重點在提升policy上
  • 演算法的tradeoffs(權衡)→以至於出現如此多演算法

    • Sample efficiency

    • Stability and ease of use

      • 值函式擬合:定點迭代
        • 深度網路不能保證收斂性
      • 基於模型的
        • 收斂but不能保證model=better policy
      • 策略梯度
        • 只有一個在真正的目標上執行梯度下降(上升)的
    • 各類演算法