白話文學強化學習-3

阿新 • • 發佈：2019-01-18

馬爾可夫決策模型

書接上回，上次說完了折扣率 $\gamma$ ，最後的公式是
$G_t=R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{n-1}R_n$
再整理下就是 $G_t=\sum_{k=1}^{n} {\gamma^{k-1} R_{k}}$
接下來開始真是介紹馬爾可夫決策模型，以下簡稱MDP（Markov Decision Processes）
官方定義（來自百度百科）：
馬爾可夫決策過程是基於馬爾可夫過程理論的隨機動態系統的最優決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態規劃相結合的產物，故又稱馬爾可夫型隨機動態規劃，屬於運籌學中數學規劃的一個分支。

馬爾可夫決策過程是一個五元組
在這裡插入圖片描述

這裡多了兩個新面孔P(.,.),R(.,.)，這裡一一解釋下，首先我們之前的

R_t

代表這在時間序列t時獲得的獎勵這裡可以代表一個實數，但是在MDP中這個R需要改變下，因為當前時間序列t之所以能獲得獎勵是因為我們在

s_t

時選擇了

a_t

才產生了

r_t

，但是當前

s_t

下能選擇的未必只有一個動作可能有m個動作，那每一個m的動作都可能會產生不同的r，所以在MDP中R應該代表的是一個函式，入參是當前的state和選擇的action，返回的則是對應的獎勵，表示成

R(s, a)

，用程式碼翻譯的話

def 
 R(state, action):
	...
	return reward

而新面孔P，則是狀態動作的轉移概率，也可以看成一個函式，即probability,完整的P應該是 $P(s', r | s, a)$
同樣翻譯成程式碼的話

def P(state, action):
	...
	return the_probability_of_next_state_and_reward

P就比R複雜很多了，舉一個西瓜書上的例子：
家裡養了一株植物，植物的狀態S有3個缺水，健康，死亡而我們的目標是培養一個智慧機器人學會怎麼去養活並且養好這株植物，那這個機器人能執行的動作就兩個一個是澆水，一個什麼都不做，所以MDP定義出來就會是：
$S$

=(缺水，健康，死亡)S=(缺水，健康，死亡)

S = (缺 水 ， 健 康 ， 死 亡)

A=(澆水，不澆水)

R和P就比較複雜了
如果植物
當前狀態-》選擇的動作-》結果
缺水-》澆水-》80%健康獎勵1 | 20%缺水獎勵-1
缺水-》不澆水-》60%缺水獎勵-1 | 40%死亡獎勵-10
健康-》澆水-》50%健康獎勵1 | 50%死亡獎勵-10
健康-》不澆水 -》 80%健康獎勵1 | 20% 缺水獎勵-1
上述的概率都是我隨便假設的，僅僅是討論作用
而死亡是結束狀態，不需要P，因為到了這個狀態，當次的強化學習過程就結束了
那R和P換成上面的函式形態則是

P(健康, 1 | 缺水, 澆水)=0.8

P(缺水, -1 | 缺水, 澆水)=0.2

P(缺水, -1 | 缺水, 不澆水)=0.6

P(死亡, -10 | 缺水, 不澆水)=0.4

$P(健康, 1 | 健康, 澆水)=0.5$
$P(死亡, -10 | 健康, 澆水)=0.5$
$P(健康, 1 | 健康, 不澆水)=0.8$
$P(缺水, -1 | 健康, 不澆水)=0.2$

$R(缺水, 澆水)=0.8 * 1 + 0.2 * (-1)$
$R(缺水, 不澆水)=0.6 * (-1) + 0.4 * (-10)$
$R(健康, 澆水)=0.5 * (1) + 0.5 * (-10)$
$R(健康, 不澆水)=0.8 * (1) + 0.2 * (-1)$

$\gamma$ =0.9
之所以公式會變成這樣就是因為在當前s下選擇一個動作a，轉移到下一個s’並不是一個100%確定的事情了，所以對應的獎勵r就會變成上面概率乘以獎勵之和。
以上就是MDP的五元組
今日總結：可以看出MDP裡最複雜的地方就是P，但是我們這個P從哪裡來呢？先不說，下回我們就要說到策略了，我們下回再見～

白話文學強化學習-3

馬爾可夫決策模型

白話文學強化學習-3

白話文學強化學習系列

人工智障學習筆記——強化學習(3)蒙特卡洛方法

白話文學強化學習-1

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

強化學習(David Silver)3：動態規劃

強化學習--綜述3之強化學習的分類

MIT6.S094深度學習與無人駕駛整理筆記（3）——————深度強化學習與運動規劃

強化學習系列3：Open AI的baselines和Spinning Up

強化學習導論(3)有限馬爾可夫決策過程

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

強化學習相關資源

maven學習3，如何創建一個web項目

JS基礎學習3

docker學習(3)--Dockfile詳解

TCP學習(3)--TCP釋放連接的過程(四次揮手)

ios網絡學習------3 用非代理方法實現異步post請求

【ES】學習3-請求體查詢

機器學習--如何將NLP應用到深度學習(3)

html學習3 首字母縮寫標簽

白話文學強化學習-3

馬爾可夫決策模型

相關推薦