1. 程式人生 > 其它 >DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION


發表時間:2020(ICLR 2020)
文章要點:文章提出一個叫Dreamer的演算法,就是去學一個world model,然後強化學習在compact state space上進行。就相當於所有的學習過程都不是和真正的環境互動學習,而是在world model上進行,所以把這個東西叫做Dreamer,相當於夢裡學習,夢裡啥都有。
Model包含三個部分,Representation model,Transition model和Reward model

這裡的s指的不是真實的狀態,而是compact state space的狀態。去學這幾個model,作者提了三種常用的方法,第一種是Reward prediction,就是直接整個model合到一起,目標就是去學reward。
第二種是Reconstruction,目標就是把image重建出來,

這個方法通常用the variational lower bound (ELBO)或者the variational information bottleneck (VIB)算一個bound,然後優化這個bound

這個部分應該和《Learning Latent Dynamics for Planning from Pixels》一樣。
第三種是Contrastive estimation,就是用一個state model去從觀測預測狀態

相當於是對比一下observation和state的區別,比如用noise contrastive estimation (NCE)去學。
然後在這個model的基礎上去學強化,文章用的actor critic方法,所以包括policy和value

然後整個演算法虛擬碼如下

總結:

感覺這個文章主要就是想說整個學習過程都弄到world model上去,儘量減少和真實environment的互動。文章裡面說了很多怎麼學model的方式,感覺還挺複雜的。從最後結果上來看,至少在連續控制的問題上,互動數量變成了1e6的量級,而model free的方法用了1e8,1e9,所以sample efficiency是有顯著提升的。不過DISCRETE CONTROL上面,比如Atari,還是沒有明顯優勢。
疑問:ontact dynamics到底是啥,這裡又出現了。
noise contrastive estimation (NCE)沒看過。