Actor Critic學習筆記

阿新 • • 發佈：2018-11-10

什麼是Actor-Critic

Actor-Critic 的 Actor 是 Policy Gradients,因為他直接根據概率進行選擇所以能夠很容易選出當前最優解，而Q-learning存在 $ϵ - g r e e$

d y \epsilon-greedy

ϵ - g r e e d y

選擇，不能及時選擇出當前最優解.但是 Policy Gradients 容易陷入區域性最優解，而且PG是回合更新，降低了學習效率。 Actor Critic 中的 Critic 是 Q-learning 或者其他的以值為基礎的學習法 , 能進行單步更新，兩者結合就解決掉了彼此的缺點。

在這裡插入圖片描述

如何更新

現在我們有兩套不同的體系, Actor 和 Critic, 他們都能用不同的神經網路來代替 . 現實中的獎懲會左右 Actor 的更新情況，但是Policy Gradients 是根據回合結束後的獎懲來更新. 那麼如何讓Actor進行單步更新呢?我們用一個 Critic 去學習這些獎懲機制, 學習完了以後. 由 Actor 來進行動作採取, 由 Critic 來告訴 Actor 這些動作哪些獎勵高, 哪些獎勵低, Critic 通過學習環境和獎勵之間的關係, 能看到現在所處狀態的潛在獎勵, 所以用它來指點 Actor 便能使 Actor 每一步都在更新, 如果使用單純的 Policy Gradients, Actor 只能等到回合結束才能開始更新.

Actor-Critic的改進

Actor-Critic 涉及到了兩個神經網路, 而且每次都是在連續狀態中更新引數, 每次引數更新前後都存在相關性, 導致神經網路只能片面的看待問題, 甚至導致神經網路學不到東西. Google DeepMind 為了解決這個問題, 修改了 Actor Critic 的演算法。

在這裡插入圖片描述

將 DQN 網路加入進 Actor Critic 系統中, 這種新演算法叫做 Deep Deterministic Policy Gradient, 成功的解決的在連續動作預測上的學不到東西問題.

Actor Critic學習筆記

什麼是Actor-Critic

如何更新

Actor-Critic的改進

Actor Critic學習筆記

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 讀書筆記

深度強化學習演算法 A3C （Actor-Critic Algorithm）

深度強化學習cs294 Lecture6: Actor-Critic Algorithms

強化學習--Actor-Critic

強化學習系列 6 : Actor Critic

Scala學習筆記（actor）

Robot Operating System (ROS)學習筆記4---語音控制

MySQL學習筆記（六）—— MySQL自連接

jquery 深入學習筆記之中的一個（事件綁定）

AngularJS入門學習筆記一

Python學習筆記-2017.5.4

SAS學習筆記之函數應用

OpenCV2學習筆記（十五）：利用Cmake高速查找OpenCV函數源代碼

avalonjs 學習筆記1---checkbox

Linux學習筆記(三)：系統執行級與執行級的切換

Principle of Computing (Python)學習筆記(7) DFS Search + Tic Tac Toe use MiniMax Stratedy

Java程序猿的JavaScript學習筆記（12——jQuery-擴展選擇器）

java學習筆記——String類

Actor Critic學習筆記

什麼是Actor-Critic

如何更新

Actor-Critic的改進

相關推薦