DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
發表時間:2020(ICLR 2020)
文章要點:文章提出一個叫Dreamer的演算法,就是去學一個world model,然後強化學習在compact state space上進行。就相當於所有的學習過程都不是和真正的環境互動學習,而是在world model上進行,所以把這個東西叫做Dreamer,相當於夢裡學習,夢裡啥都有。
Model包含三個部分,Representation model,Transition model和Reward model
這裡的s指的不是真實的狀態,而是compact state space的狀態。去學這幾個model,作者提了三種常用的方法,第一種是Reward prediction,就是直接整個model合到一起,目標就是去學reward。
第二種是Reconstruction,目標就是把image重建出來,
這個方法通常用the variational lower bound (ELBO)或者the variational information bottleneck (VIB)算一個bound,然後優化這個bound
這個部分應該和《Learning Latent Dynamics for Planning from Pixels》一樣。
第三種是Contrastive estimation,就是用一個state model去從觀測預測狀態
相當於是對比一下observation和state的區別,比如用noise contrastive estimation (NCE)去學。
然後在這個model的基礎上去學強化,文章用的actor critic方法,所以包括policy和value
然後整個演算法虛擬碼如下
總結:
疑問:ontact dynamics到底是啥,這裡又出現了。
noise contrastive estimation (NCE)沒看過。