1. 程式人生 > 其它 >MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION


發表時間:2018(ICLR 2018)
文章要點:這篇文章用ensemble的方式來度量model uncertainty,然後用來調整訓練,避免policy利用model訓練不充分(model bias)的地方進行學習,從而影響訓練效果(policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures)。
具體的,就是訓練多個model,然後每次隨機選一個model來predict下一個狀態,避免policy在一個model上overfitting。以及用多個model來判斷更新的好壞,如果在小於70%的model上效果都不如之前的policy,就終止在model裡訓練,回到真實的環境裡面去收集資料,進行下一個迴圈。
總結:

也是比較早的一篇文章了,現在很多度量model uncertainty的方法都是各種ensemble。另外,文章提到預測state的差,而不是去直接預測下一個state,感覺以後可以試試。還有一些小trick,比如訓練model的時候分個驗證集來做early stopping,對state做normalization等等。
疑問:突然想到,有buffer的model free演算法是不是可以看做model based和model free的中間體。