1. 程式人生 > 其它 >Selective Dyna-Style Planning Under Limited Model Capacity

Selective Dyna-Style Planning Under Limited Model Capacity


發表時間:2020(ICML 2020)
文章要點:這篇文章考慮的情形是,用imperfect model來planning的時候,由於model的誤差會導致planning不準,所以就需要有選擇性的planning,通過度量predictive uncertainty只在模型預測準確的地方planning。這個predictive uncertainty的來源有三種,分別是aleatoric uncertainty,parameter uncertainty和model inadequacy。作者想說之前的方式通常用ensemble的方式來度量predictive uncertainty,這種方式主要考慮的是parameter uncertainty,沒有考慮到model inadequacy。作者提出用異方差迴歸(theteroscedastic regression)的方式來度量,會更好的反應出由model inadequacy造成的predictive uncertainty。然後就根據predictive uncertainty來對n-step target value進行加權(selective model-based value expansion, selective MVE),也就是準確的地方權重大,不準確的地方權重小,這就是體現selective的地方(Rollout lengths with low variance are given more weight in the update and rollout lengths with high variance are given less)。
具體的,aleatoric uncertainty指來自dynamics function的uncertainty,比如不確定性轉移。Parameter Uncertainty指引數模型帶來的uncertainty,因為資料量是有限的,所以模型肯定有誤差,造成了uncertainty。Model Inadequacy就是說不是由於資料有限造成的,而是由於模型的擬合能力有限造成的uncertainty。
首先,aleatoric uncertainty是不能消除的。另外,很多ensemble的方式被用來度量Parameter Uncertainty,大致做法就是去學很多個model(Ensembling neural networks),然後根據這些model的輸出計算方差,作為uncertainty的度量。或者訓練一個模型,但是用dropout的方式來得到多個預測(Monte Carlo dropout),然後計算方差。再比如在訓練多個模型的時候,假如隨機的先驗,也就是隨機初始化一個固定的網路,用來和訓練的網路求和得到不同預測,然後求方差(Randomized prior functions (RPF))。等等方法。
然後作者這裡是為了來度量Model Inadequacy造成的uncertainty。辦法是去學一個異方差迴歸模型,相當於說除了學模型的下一個state,還要學這個state對應的方差,而不是通過輸出去計算方差。所以,學習模型的狀態轉移從

變成了

寫成損失函式就是

更具體的,寫成神經網路的形式為

有了這個之後,就可以去做selective planning了,就是我可以算不同的n-step target value,而且用每個value的uncertainty作加權

得到target value

用來更新強化。
作者還說了,可以把ensemble求uncertainty的方式和用異方差迴歸去學uncertainty的方式結合起來,可以取得更穩健的效果。
總結:

感覺很有意思的文章。而且這個文章的實驗,雖然用的簡單函式和環境,但是各個部分的ablation study做的很細,每個實驗也是跑30個種子,一看就是Martha的風格。就是不要搞那麼多複雜場景,不要去遍歷Atari,就搞個簡單的搞明白搞透,確實很不錯。
疑問:裡面實驗部分有個true squared error (given by an oracle)具體是怎麼得到的?