強化學習筆記1——MDP

阿新 • • 發佈：2019-01-21

概率 style 技術分享目標可能描述映射價值因子

強化學習概述

深度學習如圖像識別和語音識別解決的是感知問題，而強化學習相當於大腦，解決的是智能決策問題或者說序貫決策問題，就是隨著環境的變化連續不斷的作出決策，實現最終的目標。

強化學習最初應用在倒立擺問題上，這裏的決策是指應該給臺車施加什麽方向、多大的力，使倒立擺系統收斂到目標點即保持豎直。

技術分享圖片

馬爾科夫決策過程MDP

強化學習方法適用於馬爾科夫決策過程，所要解決的問題要滿足馬爾科夫性。即系統的下一個狀態S_t+1僅與當前的狀態S_t有關，而與之前的狀態無關。

1、馬爾科夫決策過程

馬爾科夫決策過程由(S, A, P, R, γ)描述，其中S為有限的狀態集；A為有限的動作集；P為狀態轉移概率，它是包含動作的，技術分享圖片

= P[S_t+1 = s‘|S_t = s, A_t = a]；R為回報函數；γ為折扣因子，用來計算累積回報。

2、策略π(a|s)

強化學習的目標是給定一個馬爾科夫決策過程，尋找最優策略。所謂策略是指狀態到動作的映射，通常用π表示，它是指給定狀態s時，動作集上的一個分布：π(a|s)=p[A_t=a|S_t=s]。這裏的最優是指得到的總回報最大。

3、累積回報G_t

當有策略π後，就可以計算累積回報了。時刻t之後得到的累積回報定義如下：

G_t = R_t+1 + γR_t+2+···= 技術分享圖片其中γ為折扣因子表示將來獎勵的影響程度，當γ=0時，只用即時獎勵來評判。由於π是隨機的，所以

G_t為隨機變量。

4、狀態值函數V_π(s)與狀態行為值函數Q_π(s,a)

用狀態值函數V_π來評價某一狀態s的價值，V_π越大表明選取這個狀態越好。V_π(s)具體定義為，使用策略π進行實驗，從狀態s出發一直到終止狀態期間所得到的累積回報，即V_π(s) = E_π[ 技術分享圖片 |S_t=s] = E_π[G_t|S_t=s]

定義狀態行為值函數Q_π(s,a)來評價某一狀態時發出的動作a的價值。Q_π(s,a)越大表明在狀態s下選取動作a越好。具體定義為從狀態s出發，執行動作a後再使用策略π所帶來的累積獎賞。Q_π(s,a) = E_π[ 技術分享圖片 |S_t=s, A_t=a]

5、貝爾曼方程

1、當技術分享圖片 =1時，

當技術分享圖片 =1時，即在策略π

下當發出一個動作後會到達一個確定的狀態s_i，已知之後每個狀態的值函數V_i，並且有相應的回報r_i。

有：Q_π(s₀,a_i) = r_i+γV_i(s‘); V_π(s₀) = Σ_ap_i·Q_π(s₀,a_i) = Σ_aπ(a|s)·Q_π(s₀,a_i);

則：V_π(s₀) = Σ_aπ(a|s)·(r_i+γV_i(s‘)) Q_π(s₀,a_i) = r_i+γΣ_aπ(a|s)·Q_π(s‘,a_i)

技術分享圖片

2、當技術分享圖片時

當技術分享圖片時，發出動作a之後，可能轉移到三個不同的狀態。

有：Q_π(s₀,a_i) = r_i+γ·Σ_s‘·V_i(s‘); V_π(s₀) = Σ_ap_i·Q_π(s₀,a_i) = Σ_aπ(a|s)·Q_π(s₀,a_i);

則：V_π(s₀) = Σ_aπ(a|s)·(r_i+γ·Σ_s‘·V_i(s‘))

技術分享圖片

強化學習筆記1——MDP

概率 style 技術分享目標可能描述映射價值因子強化學習概述深度學習如圖像識別和語音識別解決的是感知問題，而強化學習相當於大腦，解決的是智能決策問題或者說序貫決策問題，就是隨著環境的變化連續不斷的作出決策，實現最終的目標。強化學習最初應用在倒立擺問題上，

強化學習筆記1——MDP

強化學習概述

馬爾科夫決策過程MDP

1、馬爾科夫決策過程

2、策略π(a|s)

3、累積回報G_t

4、狀態值函數V_π(s)與狀態行為值函數Q_π(s,a)

5、貝爾曼方程

強化學習筆記1——MDP

強化學習筆記二 MDP & DP

avalonjs 學習筆記1---checkbox

微信小程序學習筆記1

mysql學習筆記(1-安裝簡介)

Python學習筆記1

java 學習筆記1

Java Web學習筆記-1

Redis學習筆記1--入門篇

Python學習筆記1安裝概述_20170610

深入理解 Java 虛擬機之學習筆記(1)

MySql 基礎學習筆記 1——概述與基本數據類型：整型： 1）TINYINT 2)SMALLINT 3) MEDIUMINT 4)INT 5)BIGINT 主要是大小的差別圖浮點型：命令

機器學習筆記 1 LMS和梯度下降（批梯度下降） 20170617

lua學習筆記1 環境配置

Gdb學習筆記1

tableau學習筆記—1

AngularJs學習筆記1——總體介紹

JavaSE中Collection集合框架學習筆記(1)——具有索引的List

Linux學習筆記1-CentOS7不能聯網、關閉防火墻

PHP:學習筆記(1)——環境配置

強化學習筆記1——MDP

強化學習概述

馬爾科夫決策過程MDP

1、馬爾科夫決策過程

2、策略π(a|s)

3、累積回報Gt

4、狀態值函數Vπ(s)與狀態行為值函數Qπ(s,a)

5、貝爾曼方程

相關推薦

3、累積回報G_t

4、狀態值函數V_π(s)與狀態行為值函數Q_π(s,a)