強化學習筆記1——MDP
強化學習概述
深度學習如圖像識別和語音識別解決的是感知問題,而強化學習相當於大腦,解決的是智能決策問題或者說序貫決策問題,就是隨著環境的變化連續不斷的作出決策,實現最終的目標。
強化學習最初應用在倒立擺問題上,這裏的決策是指應該給臺車施加什麽方向、多大的力,使倒立擺系統收斂到目標點即保持豎直。
馬爾科夫決策過程MDP
強化學習方法適用於馬爾科夫決策過程,所要解決的問題要滿足馬爾科夫性。即系統的下一個狀態St+1僅與當前的狀態St有關,而與之前的狀態無關。
1、馬爾科夫決策過程
馬爾科夫決策過程由(S, A, P, R, γ)描述,其中S為有限的狀態集;A為有限的動作集;P為狀態轉移概率,它是包含動作的,
2、策略π(a|s)
強化學習的目標是給定一個馬爾科夫決策過程,尋找最優策略。所謂策略是指狀態到動作的映射,通常用π表示,它是指給定狀態s時,動作集上的一個分布:π(a|s)=p[At=a|St=s]。這裏的最優是指得到的總回報最大。
3、累積回報Gt
當有策略π後,就可以計算累積回報了。時刻t之後得到的累積回報定義如下:
Gt = Rt+1 + γRt+2+···=
其中γ為折扣因子表示將來獎勵的影響程度,當γ=0時,只用即時獎勵來評判。由於π是隨機的,所以
4、狀態值函數Vπ(s)與狀態行為值函數Qπ(s,a)
用狀態值函數Vπ來評價某一狀態s的價值,Vπ越大表明選取這個狀態越好。Vπ(s)具體定義為,使用策略π進行實驗,從狀態s出發一直到終止狀態 期間所得到的累積回報,即Vπ(s) = Eπ[|St=s] = Eπ[Gt|St=s]
定義狀態行為值函數Qπ(s,a)來評價某一狀態時發出的動作a的價值。Qπ(s,a)越大表明在狀態s下選取動作a越好。具體定義為從狀態s出發,執行動作a後再使用策略π所帶來的累積獎賞。Qπ(s,a) = Eπ[|St=s, At=a]
5、貝爾曼方程
1、當=1時,
當=1時,即在策略π
有:Qπ(s0,ai) = ri+γVi(s‘); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);
則:Vπ(s0) = Σaπ(a|s)·(ri+γVi(s‘)) Qπ(s0,ai) = ri+γΣaπ(a|s)·Qπ(s‘,ai)
2、當時
當時,發出動作a之後,可能轉移到三個不同的狀態。
有:Qπ(s0,ai) = ri+γ·Σs‘·Vi(s‘); Vπ(s0) = Σapi·Qπ(s0,ai) = Σaπ(a|s)·Qπ(s0,ai);
則:Vπ(s0) = Σaπ(a|s)·(ri+γ·Σs‘·Vi(s‘))
強化學習筆記1——MDP