MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION
阿新 • • 發佈:2022-02-12
發表時間:2018(ICLR 2018)
文章要點:這篇文章用ensemble的方式來度量model uncertainty,然後用來調整訓練,避免policy利用model訓練不充分(model bias)的地方進行學習,從而影響訓練效果(policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures)。
具體的,就是訓練多個model,然後每次隨機選一個model來predict下一個狀態,避免policy在一個model上overfitting。以及用多個model來判斷更新的好壞,如果在小於70%的model上效果都不如之前的policy,就終止在model裡訓練,回到真實的環境裡面去收集資料,進行下一個迴圈。
總結:
疑問:突然想到,有buffer的model free演算法是不是可以看做model based和model free的中間體。