強化學習——基於策略梯度的強化學習演算法

在前面的章節裡，我們已經學習了基於值函式的強化學習演算法，他的核心思想是利用當前的策略 $\pi$ 與環境進行互動，得到資料之後，利用得到的資訊來更新值函式，得到一個新的值函式之後，我們可以利用這個值函式產生一個新的策略 $π^{'}$

π^{'}

$\pi'$ ,這個新的策略

π^{'}

$\pi’$ 比原來的策略有著更大的期望回報，以此迭代，最終我們將得到一個期望回報很高的策略。從這裡可以看出，基於值函式方法得強化學習演算法的核心是對值函式有一個好的評估，下面將介紹的基於策略梯度得強化學習演算法則是從另外一個角度考慮一個MDP的，他的想法會更加自然一些。

在開始介紹直接策略搜尋的強化學習演算法之前，我們有必要了解一下這種方法相比於我們之前介紹的基於值函式的方法的優缺點。
1. 直接策略搜尋是對策略進行引數化表示，與值函式相比，策略化引數的方法更簡單，更容易收斂。
2. 值函式的放法無法解決狀態空間過大或者不連續的情形
3. 直接策略的方法可以採取隨機策略，隨機策略可以將探索直接整合到演算法當中

當然值函式的方法也有一些優點：
1. 策略搜尋的方法更容易收斂區域性極值點
2. 在評估單個策略時，評估的並不好，方差容易過大

上圖是一個完整的MDP過程對於一個完整的取樣軌跡 $τ$

得到期望回報關於策略的表示式之後，我們的目標變得非常明確了，我們只需要優化這個函式，使之最大化即可。我們可以使用最常用的梯度下降的方法。
注意到：

強化學習——基於策略梯度的強化學習演算法

強化學習——基於策略梯度的強化學習演算法

強化學習(十三) 策略梯度(Policy Gradient)

強化學習之策略梯度(Policy Gradient)

深度學習中的梯度下降優化演算法綜述

推薦系統學習--基於item的協同過濾演算法及python實現

[機器學習]基於 JavaScript 的機器學習例項

[機器學習]基於python的機器學習庫Sklearn-01

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods）

伯克利、OpenAI等提出基於模型的元策略優化強化學習

強化學習之四：基於策略的Agents (Policy-based Agents)

【雙11背後的技術】基於深度強化學習與自適應線上學習的搜尋和推薦演算法研究

學習筆記TF037:實現強化學習策略網絡

【轉】【強化學習】Deep Q Network(DQN)演算法詳解

強化學習之最基礎篇（演算法實現及基礎案例學習）

CS229 Machine Learning學習筆記:Note 12(強化學習與自適應控制)

強化學習--綜述3之強化學習的分類

策略梯度(Policy gradient)學習心得

【演算法學習】基於“平均”的隨機分配演算法（貪婪，回溯），以按平均工作量隨機分配單位為例

Python基於K-均值、RLS演算法實現RBF神經網路（神經網路與機器學習第五章計算機實驗）

基於深度學習的廣告CTR預估演算法

強化學習——基於策略梯度的強化學習演算法

相關推薦