Selective Dyna-Style Planning Under Limited Model Capacity

阿新 • • 發佈：2021-11-24

發表時間：2020（ICML 2020）
文章要點：這篇文章考慮的情形是，用imperfect model來planning的時候，由於model的誤差會導致planning不準，所以就需要有選擇性的planning，通過度量predictive uncertainty只在模型預測準確的地方planning。這個predictive uncertainty的來源有三種，分別是aleatoric uncertainty，parameter uncertainty和model inadequacy。作者想說之前的方式通常用ensemble的方式來度量predictive uncertainty，這種方式主要考慮的是parameter uncertainty，沒有考慮到model inadequacy。作者提出用異方差迴歸（theteroscedastic regression）的方式來度量，會更好的反應出由model inadequacy造成的predictive uncertainty。然後就根據predictive uncertainty來對n-step target value進行加權（selective model-based value expansion, selective MVE），也就是準確的地方權重大，不準確的地方權重小，這就是體現selective的地方（Rollout lengths with low variance are given more weight in the update and rollout lengths with high variance are given less）。
具體的，aleatoric uncertainty指來自dynamics function的uncertainty，比如不確定性轉移。Parameter Uncertainty指引數模型帶來的uncertainty，因為資料量是有限的，所以模型肯定有誤差，造成了uncertainty。Model Inadequacy就是說不是由於資料有限造成的，而是由於模型的擬合能力有限造成的uncertainty。
首先，aleatoric uncertainty是不能消除的。另外，很多ensemble的方式被用來度量Parameter Uncertainty，大致做法就是去學很多個model（Ensembling neural networks），然後根據這些model的輸出計算方差，作為uncertainty的度量。或者訓練一個模型，但是用dropout的方式來得到多個預測（Monte Carlo dropout），然後計算方差。再比如在訓練多個模型的時候，假如隨機的先驗，也就是隨機初始化一個固定的網路，用來和訓練的網路求和得到不同預測，然後求方差（Randomized prior functions (RPF)）。等等方法。
然後作者這裡是為了來度量Model Inadequacy造成的uncertainty。辦法是去學一個異方差迴歸模型，相當於說除了學模型的下一個state，還要學這個state對應的方差，而不是通過輸出去計算方差。所以，學習模型的狀態轉移從

變成了

寫成損失函式就是

更具體的，寫成神經網路的形式為

有了這個之後，就可以去做selective planning了，就是我可以算不同的n-step target value，而且用每個value的uncertainty作加權

得到target value

用來更新強化。
作者還說了，可以把ensemble求uncertainty的方式和用異方差迴歸去學uncertainty的方式結合起來，可以取得更穩健的效果。
總結：

感覺很有意思的文章。而且這個文章的實驗，雖然用的簡單函式和環境，但是各個部分的ablation study做的很細，每個實驗也是跑30個種子，一看就是Martha的風格。就是不要搞那麼多複雜場景，不要去遍歷Atari，就搞個簡單的搞明白搞透，確實很不錯。
疑問：裡面實驗部分有個true squared error (given by an oracle)具體是怎麼得到的？

Selective Dyna-Style Planning Under Limited Model Capacity

Selective Dyna-Style Planning Under Limited Model Capacity

The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

Online and Offline Reinforcement Learning by Planning with a Learned Model

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

Flutter如何更便捷的json轉model

使用VSCode+PlantUML+C4-Model快速畫架構圖

Go-Spring : Another Go Style！

樹莓派（Raspberry Pi 4 Model B）編譯64位核心Kernel（64位系統）

Django2 連線MySQL及model測試例項分析

pytorch檢視torch.Tensor和model是否在CUDA上的例項

django資料模型（Model）的欄位型別解析

Python實現word2Vec model過程解析

解決django model修改新增欄位報錯的問題

python自動生成model檔案過程詳解

Django框架model模型物件驗證實現方法分析

flask/django 動態查詢表結構相同表名不同資料的Model實現方法

Vue v-model元件封裝(類似彈窗元件)

vue.js自定義元件實現v-model雙向資料繫結的示例程式碼

pytorch 修改預訓練model例項

詳解vue中v-bind:style效果的自定義指令

Selective Dyna-Style Planning Under Limited Model Capacity

相關推薦