1. 程式人生 > 其它 >Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning


發表時間:2018(ICRA 2018)
文章要點:這篇文章提出了一個叫model-based and model-free (Mb-Mf)的演算法,先用model based的方法訓一個policy,再用model free的方法來fine tune。具體的,先學一個model,然後用planning的方式(simple random sampling shooting method)選擇動作

這相當於有了一個Model-Based Control。然後用這個方式收集資料,擬合成一個策略網路作為model free的初始化策略(using the model-based learner to initialize a model-free learner.)

然後用model free的方法繼續訓這個policy(TRPO)。
總結:

是個make sense的方法,就是階段有點多,先要收集樣本學model(random trajectories),然後根據model做planning收集planning策略下的資料,然後擬合一個policy網路,最後用model free的方法繼續訓練。感覺挺麻煩的。
疑問:裡面這個文章說選TRPO的原因是他不需要初始化value function,難道做連續控制的時候不去擬合value network嗎,可能有會更好吧?(such policy gradient algorithms are a good choice for model-free fine-tuning since they do not require any critic or value function for initialization)