Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
阿新 • • 發佈:2022-03-10
發表時間:2018(ICRA 2018)
文章要點:這篇文章提出了一個叫model-based and model-free (Mb-Mf)的演算法,先用model based的方法訓一個policy,再用model free的方法來fine tune。具體的,先學一個model,然後用planning的方式(simple random sampling shooting method)選擇動作
這相當於有了一個Model-Based Control。然後用這個方式收集資料,擬合成一個策略網路作為model free的初始化策略(using the model-based learner to initialize a model-free learner.)
然後用model free的方法繼續訓這個policy(TRPO)。
總結:
疑問:裡面這個文章說選TRPO的原因是他不需要初始化value function,難道做連續控制的時候不去擬合value network嗎,可能有會更好吧?(such policy gradient algorithms are a good choice for model-free fine-tuning since they do not require any critic or value function for initialization)