增強學習(RL)一些入門資料
阿新 • • 發佈:2018-12-13
增強學習(RL)一些入門資料
- 概述
- 綜述★
MDP
- 基本概念
- 解決方法分類
model-free
&model-based
model-based
--> 先學習 環境 ,再具體使用規劃來得到最優策略。- 有點類似於 生成模型 & 判別模型
off-plicy
&on-plicy
- [TOTAL] :: 更新價值所使用的方法是沿著既定的策略(on-policy)抑或是新策略(off-policy)
off-plicy
--> 我們可以利用一個策略(行為策略)來保持探索性,提供多樣化的資料,而不斷的優化另一個策略(目標策略)。on-plicy
--> 在既定的策略下學習更優策略
- 具體解決方法
- 動態規劃
DP
--> (model-based
)- 策略迭代 --> (策略估計,策略改進)
- 值迭代
- 蒙特卡洛(
MC
) - 時間差分(
Temporal-Difference Learning
)Temporal-Difference
★★Q-learning
--> (model-free
off-plicy
)Sarsa
--> (on-plicy
) ??
- 動態規劃
POMDP
- ???