強化學習 by 李巨集毅(個人記錄向)
P2Proximal Policy Optimization (PPO)
importance sampling:
On-policy -> Off-policy
Gradient for update:
*KL divergence(KL距離) 常用來衡量兩個概率分佈的距離
Q-learning
critic 評價action的效果
Monte-Carlo(MC) based approach
Temporal-difference(TD) approach
*mc td分別代表什麼
Target Network
Exploration Epsilon Greedy
Replay Buffer
減少與環境做互動的時間
Typical Q-learning Algorithm
Tips of Q-Learning
Double DQN
Q-Value總是被高估,因為target總是被設得太高
Dueling DQN
修改了網路的架構,分為V+A = Q
Prioritized Reply
Multi-step
Q-Learning for Continuous Actions
Q-Learning不容易處理連續的行為,如自動駕駛,機器人行動
Using gradient ascent to solve the optimization problem
policy-based(ppo)
value-based(Q-learning)
Asynchronous Advantage Actor-Critic
Review Policy Gradient
Actor-Critic
Pathwise Derivative Policy Gradient
Sparse Reward
agent多數情況下,無法得到reward
Reward Shaping:
ICM = instrinsic curiosity module 鼓勵冒險
根據,Network1預測與真正的差距,即採取某action,無法預測接下來的結果那麼鼓勵該操作
提取需要的特徵,通過Network2仍然得到正確,說明過濾掉是無用的資訊Curriculum Learning
Reverse Curriculum Generation根據得分反推
Hierarchical RL分級強化學習
Imitation Learning
Behavior Cloning
- 存在侷限性,無法收集極端情況下的資料
- 學習無用的行為
Inverse RL
IRL訓練專家的資料,得到正確的Reward Funciton;轉而,RL利用Reward Funciton得到optimal acto,類似於GAN。
應用:自駕車