1. 程式人生 > >強化學習筆記1——MDP

強化學習筆記1——MDP

概率 style 技術分享 目標 可能 描述 映射 價值 因子

強化學習概述

深度學習如圖像識別和語音識別解決的是感知問題,而強化學習相當於大腦,解決的是智能決策問題或者說序貫決策問題,就是隨著環境的變化連續不斷的作出決策,實現最終的目標。

強化學習最初應用在倒立擺問題上,這裏的決策是指應該給臺車施加什麽方向、多大的力,使倒立擺系統收斂到目標點即保持豎直。

技術分享圖片

馬爾科夫決策過程MDP

強化學習方法適用於馬爾科夫決策過程,所要解決的問題要滿足馬爾科夫性。即系統的下一個狀態St+1僅與當前的狀態St有關,而與之前的狀態無關。

1、馬爾科夫決策過程

馬爾科夫決策過程由(S, A, P, R, γ)描述,其中S為有限的狀態集;A為有限的動作集;P為狀態轉移概率,它是包含動作的,技術分享圖片

= P[St+1 = s‘|St = s, At = a];R為回報函數;γ為折扣因子,用來計算累積回報。

2、策略π(a|s)

強化學習的目標是給定一個馬爾科夫決策過程,尋找最優策略。所謂策略是指狀態到動作的映射,通常用π表示,它是指給定狀態s時,動作集上的一個分布:π(a|s)=p[At=a|St=s]。這裏的最優是指得到的總回報最大。

3、累積回報Gt

當有策略π後,就可以計算累積回報了。時刻t之後得到的累積回報定義如下:

Gt = Rt+1 + γRt+2+···=技術分享圖片 其中γ為折扣因子表示將來獎勵的影響程度,當γ=0時,只用即時獎勵來評判。由於π是隨機的,所以

Gt為隨機變量。

4、狀態值函數Vπ(s)與狀態行為值函數Qπ(s,a)

用狀態值函數Vπ來評價某一狀態s的價值,Vπ越大表明選取這個狀態越好。Vπ(s)具體定義為,使用策略π進行實驗,從狀態s出發一直到終止狀態 期間所得到的累積回報,即Vπ(s) = Eπ[技術分享圖片|St=s] = Eπ[Gt|St=s]

定義狀態行為值函數Qπ(s,a)來評價某一狀態時發出的動作a的價值。Qπ(s,a)越大表明在狀態s下選取動作a越好。具體定義為從狀態s出發,執行動作a後再使用策略π所帶來的累積獎賞。Qπ(s,a) = Eπ[技術分享圖片|St=s, At=a]

5、貝爾曼方程

1、當技術分享圖片=1時,

技術分享圖片=1時,即在策略π

下當發出一個動作後會到達一個確定的狀態si,已知之後每個狀態的值函數Vi,並且有相應的回報ri

有:Qπ(s0,ai) = ri+γVi(s‘); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);

則:Vπ(s0) = Σaπ(a|s)·(ri+γVi(s‘)) Qπ(s0,ai) = ri+γΣaπ(a|s)·Qπ(s‘,ai)

技術分享圖片

技術分享圖片

2、當技術分享圖片

技術分享圖片時,發出動作a之後,可能轉移到三個不同的狀態。

有:Qπ(s0,ai) = ri+γ·Σs‘技術分享圖片·Vi(s‘); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);

則:Vπ(s0) = Σaπ(a|s)·(ri+γ·Σs‘技術分享圖片·Vi(s‘))

技術分享圖片

強化學習筆記1——MDP