1. 程式人生 > 其它 >Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning


發表時間:2018
文章要點:這篇文章提出了model-based value expansion (MVE)演算法,通過在model上擴充套件有限深度,來控制model uncertainty,利用這有限步上的reward來估計value,提升value估計的準確性,在結合model free演算法來訓練。相當於用model來做short-term horizon的估計,用Q-learning來做long-term的估計(We present model-based value expansion (MVE), a hybrid algorithm that uses a dynamics model to simulate the short-term horizon and Q-learning to estimate the long-term value beyond the simulation horizon.)。
具體的,文章假設model一直到H深度都是準確的,所以value的估計可以用當前policy在model上擴充套件這H步

在model裡面走H步有一個好處是,得到的value就是on policy的,所以不需要做修正。
還有一個問題是\(s_0\)

從哪來,如果直接從buffer裡面取樣,那麼這個\(s_0\)的分佈和當前policy的分佈可能是不一樣的,所以也會出問題(distribution mismatch)。作者這裡假設policy對應的state的分佈是一個不動點,這個假設是make sense的,那麼先在model裡面用當前policy從\(s_0\)走幾個step,那麼這個分佈就會靠近這個不動點,然後再去計算value就不會有distribution mismatch的問題了。

作者把這個方法叫做TD-k trick。有了這個之後,就用來訓model free RL就行了。作者用的是DDPG,整個演算法如下

總結:這篇文章提出的MVE算是很多model based演算法的起點了,在這個方向上挺出名的了。另外這個H不太好確定,所以後面就出現了一些工作來自適應選擇H。
疑問:
有個問題是不知道為什麼會work,因為基於one-step的貝爾曼方程更新的Q-learning類演算法都是off policy的,並不需要on policy的估計。這裡on policy的估計對貝爾曼方程收斂性的影響是啥還不清楚。