強化學習（二）：Policy Gradient理解

阿新 • • 發佈：2019-01-20

上一章已經介紹了基於值函式方法的簡單的DQN的理解，而在深度強化學習領域另一種基於端到端思路的策略梯度（Policy Gradient）演算法相較而言可能取得更好的結果，也更加方便理解。於是，本章我們就從有監督學習和強化學習的區別開始講起，探討策略梯度思想指導下的強化學習理念的簡單理解。

在之前的章節：強化學習(一)：簡單的DQN理解中，我們已經瞭解到使用值函式的方法進行強化學習的本質是需要通過獎勵的反饋來訓練模型。其中，模型的輸入為當前的狀態，模型的輸出則為長期的反饋，而我們實際上是根據反饋值的大小來進行動作的選擇。那麼根據這個思想，自然而然的我們就會產生一個疑問：我們為什麼要通過先使用深度網路求取反饋再根據反饋來選擇動作，而不是直接使用深度網路來直接的選擇動作？

這就是策略梯度思想產生的原因所在。

如果要實現從當前狀態到應當採取的動作的預測，那麼我們就需要知道在這個過程中目標函式是什麼，我們採取什麼樣的方式來尋找這個策略。此時，我們不免想到與此有著一定相似度的監督學習，下面我們就來對比一下監督學習和強化學習在處理這個問題上的異同。

1.監督學習&強化學習的梯度策略

上一章已經說明：同每一個數據都有明確標籤的有監督學習相比，強化學習針對擁有稀疏標籤的資料，根據少量的動作對錯評價也可以學習到正確的行為。那麼這種方式的學習本質上是怎樣產生的呢？下面就用兩個圖來分別表示在有監督學習和強化中是如何通過梯度來修改引數權重的（見圖一、圖二）。

圖一有監督學習梯度修改策略圖

圖二強化學習中梯度修改策略圖

其中，我們對“前提”進行一些解釋：在該種前提下，如果我們通過進行1000局的遊戲來訓練我們的強化學習模型，假設我們總共贏來100局輸了900局，那麼我們將對於贏的100局認為在這些局中對於每一個當前遊戲狀態所採取的動作都是好的，讓這所有的動作對我們的決策網路進行正向的更新。而我們對於輸掉的900局則認為在這些局中每一個當前遊戲狀態所採取的動作都是不好的，讓這所有的動作對我們的網路進行負向的更新（見圖三）

圖三網路正\負向更新示意圖

在瞭解了基於策略梯度的強化學習基本概念知識之後，我們來以Monte-Carlo Policy Gradient演算法作為例子，詳細的闡述一下基於策略梯度的強化學習模型的訓練過程。

2.Monte-Carlo Policy Gradient

下面給出簡單的Monte-Carlo Policy Gradient方法的訓練流程圖，大家可以與之前簡單的DQN演算法的流程圖做個對比，就能清晰的瞭解到上述所講的內容在構建Policy Gradient演算法時具體是如何實現的，這樣的實現模式與基於值函式的方法又有什麼樣本質的區別。（見圖四）

圖四 Monte-Carlo Policy Gradient演算法訓練流程圖

強化學習（二）：Policy Gradient理解

強化學習（二）：Policy Gradient理解

強化學習（二）：馬爾可夫決策過程

Unity3D學習（二）：使用JSON進行對象數據的存儲讀取

Android NDK學習（二）：編譯腳本語法Android.mk和Application.mk

linux入門學習（二）：linux圖形化界面與命令行界面之間的切換，以及一些系統命令

PE檔案格式學習（二）：總體結構

深度強化學習（一）： Deep Q Network(DQN)

TensorFlow學習（二）：tf.random_normal() 和 tf.random_unform()

網頁開發學習（二）：表格

Scrapy學習（二）：Xpath使用與並行化操作

JAVA學習（二）：第二章基本程式設計

MFC學習（二）：訊息對映

rabbitmq學習（二）：rabbitmq（消息隊列）的作用以及rabbitmq之直連交換機

webpack學習（二）：配置載入css, 圖片, 字型, 資料(JSON, XML, CSV)等資原始檔

機器學習（二）：logistic迴歸

zookeeper入門學習（二）：原理詳解

機器學習（二）：機器學習中的幾個基本概念

RabbitMq的學習（二）：Java建立簡單的生產者，消費者

【轉】強化學習（二）

vue學習（二）：元件化開發

強化學習（二）：Policy Gradient理解

相關推薦