Model-Based Reinforcement Learning via Latent-Space Collocation
阿新 • • 發佈:2022-03-10
發表時間:2021(ICML 2021)
文章要點:這篇文章提出了latent collocation method (LatCo)演算法,用來planning狀態序列,而不是動作序列,來解決long horizon的planning問題(it is easier to solve long-horizon tasks by planning sequences of states rather than just actions)。主要思路就是先找到reward高的狀態,然後再找到達那個狀態對應的動作序列(we turn to the technique of collocation, which optimizes a sequence of states to maximize the reward, while also eventually ensuring dynamics feasibility by recovering the corresponding actions)。
具體的,優化目標為
先學一個latent state space models把觀測轉換成隱狀態,然後基於隱狀態來學狀態轉移和reward函式。然後優化目標就變為
把dynamics model和action的約束加上,最後的式子變成
為了解這個優化問題,文章還利用Levenberg-Marquardt optimization來提高訓練速度(This efficient optimizer converges 10-100 times faster than gradient descent in wall clock in our experiments.)。
總結:
疑問:Levenberg-Marquardt optimization不懂。
裡面很多式子變來變去的,比如幾個優化目標的轉換過程,不是很理解。
最後是怎麼形成一條可行的動作序列到達那個狀態的其實不是很理解,加個約束項真的夠了嗎?會不會有失敗的情況?
這文章感覺挺難的,還沒想明白具體是怎麼work的。