Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning
阿新 • • 發佈:2022-02-11
發表時間:2018
文章要點:這篇文章提出了model-based value expansion (MVE)演算法,通過在model上擴充套件有限深度,來控制model uncertainty,利用這有限步上的reward來估計value,提升value估計的準確性,在結合model free演算法來訓練。相當於用model來做short-term horizon的估計,用Q-learning來做long-term的估計(We present model-based value expansion (MVE), a hybrid algorithm that uses a dynamics model to simulate the short-term horizon and Q-learning to estimate the long-term value beyond the simulation horizon.)。
具體的,文章假設model一直到H深度都是準確的,所以value的估計可以用當前policy在model上擴充套件這H步
在model裡面走H步有一個好處是,得到的value就是on policy的,所以不需要做修正。
還有一個問題是\(s_0\)
作者把這個方法叫做TD-k trick。有了這個之後,就用來訓model free RL就行了。作者用的是DDPG,整個演算法如下
總結:這篇文章提出的MVE算是很多model based演算法的起點了,在這個方向上挺出名的了。另外這個H不太好確定,所以後面就出現了一些工作來自適應選擇H。
疑問: