lec-4-Introduction to Reinforcement Learning
阿新 • • 發佈:2022-05-09
模仿學習imitation learning與RL的不同
- 模仿學習中需要有專家指導的資訊
- RL不需要訪問專家資訊
RL Definitions
- 獎勵函式
- 馬爾科夫決策鏈
- 只與上一個狀態有關
- 目的
- 空間
- 有限
- 可找到最優引數
- 無限
- 證明p的概率分佈是個平穩分佈stationary distribution
- 有限
- 期望
- 由於獎勵函式是不平滑的
- 轉換: 但是可以優化 看似不平滑甚至稀疏的獎勵功能(不平滑or不可微的期望) 在可微且平穩的概率下的函式
- 轉換: 但是可以優化 看似不平滑甚至稀疏的獎勵功能(不平滑or不可微的期望) 在可微且平穩的概率下的函式
- 由於獎勵函式是不平滑的
演算法
-
基本過程:
- 生成樣本→調整模型/估計回報(評估policy)→提升策略policy→生成樣本
- 各部分代價
- 生成樣本
Expensive:真實環境進行一次,也許代價會很高,機器人、車、電網等
cheap:模擬環境 - 評估policy
expensive:學習神經網路大量引數
cheap:MC等求均值等 - 提升policy
expensive:反向傳播大量引數求導
cheap:回報均值梯度求導更新
- 生成樣本
- 生成樣本→調整模型/估計回報(評估policy)→提升策略policy→生成樣本
-
Value Functions(基於值的)
- 核心:第二步(評估policy)使用Q-function or value function
- 定義
- 期望:
- Q-function:
- Value function:
- 關係:
- Idea:
Policy iteration:Policy+Q-function → improve policy
比較QandV,if Q>V, 計算梯度增加動作概率
-
演算法型別
- Policy gradients
- Value-based:擬合/評估Q、V
- Actor-critic
- Model-based RL:重點在提升policy上
-
演算法的tradeoffs(權衡)→以至於出現如此多演算法
-
Sample efficiency
-
Stability and ease of use
- 值函式擬合:定點迭代
- 深度網路不能保證收斂性
- 基於模型的
- 收斂but不能保證model=better policy
- 策略梯度
- 只有一個在真正的目標上執行梯度下降(上升)的
- 值函式擬合:定點迭代
-
各類演算法
-