解讀continuous control with deep reinforcement learning(DDPG)
版權宣告:本文為博主原創文章,未經博主允許不得轉載。
博主:shenshikexmu
聯絡方式:[email protected]
緣起
DDPG,是Google Deepmind第一篇關於連續動作的深度加強學習論文(是否第一篇存疑)。DQN(Deep Q Network)生成的策略執行的動作是離散或者低維的,雖然在狀態輸入上可以是高維的觀察狀態。如在DQN2014中,有效的動作在4到18個之間,而輸入的狀態是84×84×4的圖片。相對於連續動作,DQN的動作空間太小了,原文的to to simply,使得DQN瞬間淪為香港記者,呵呵。文中舉的例子,是7個自由度(DOF)的機械臂,只是粗糙的控制,每一個DOF只有三種動作狀態
於是需要新的深度強化學習方法,來解決連續動作空間的策略問題。
背景知識
狀態動作軌跡
策略概率
狀態轉移概率,當前狀態是
回報函式,這裡給出的
折扣累計獎賞,這是在
首先這是個期望值,這是全篇論文理解的一個眼,這個公式理解了,論文思想理解80%了。裡面包含
兩個公式是一樣的,在概率策略