Online and Offline Reinforcement Learning by Planning with a Learned Model
阿新 • • 發佈:2021-08-07
發表時間:2021
文章要點:文章接著muzero做的,當時muzero裡面提出了一個MuZero Reanalyze(Reanalyse)的方式,這篇文章提出的MuZero Unplugged演算法其實就是把MuZero Reanalyse用到offline RL裡面。作者想說的就是這個方法不僅可以用在online RL上,在offline RL上同樣表現很好,相當於一個演算法對著這兩種設定都適用(Reanalyse fraction of 0% refers to training by only interacting with the environment, no Reanalyse of stored data, whereas a fraction of 100% refers to the fully offline case with no environment interaction at all)。MuZero Unplugged的主要想說的是,由於muzero是off-policy演算法,那麼replay buffer裡的trajectory肯定是很多不同的policy產生的,由於policy一直在被更新,那麼那些儲存較早的trajectory的policy和n-step return就不準了,所以就要用最新的網路引數去重新做樹搜尋更新policy以及target value來估n-step return(所以叫Reanalyze)。這個原理在muzero的文章中也有說,如下
然後這篇文章就是把這個方式和offline RL的演算法作對比,比如BC,DQN,IQN,BCQ,REM,CRR等。
總結:
疑問:這篇文章主要其實在講實驗,各個部分具體是咋實現的其實沒細說,從給的演算法虛擬碼也能看出來,寫的非常籠統,需要靠猜。