強化學習筆記二 MDP & DP
本篇筆記將會介紹強化學習的基本概念,馬爾可夫決策過程MDP,Bellman方程和動態規劃求解MDP問題。
基本概念
history and state
history 是一系列觀察,行動和獎勵的集合。state是history的函式,包含當前狀態的資訊,並用於決定下一時刻的行動。
policy
代表在狀態s下采取行動的策略,換言之就是採取行動a的概率。policy可以是deterministic或stochastic的。
reward & return
reward是實時獲得的,取決於當前的行動或者說是下一步的狀態。return是一段時間內reward的總和,
。
value function
用於衡量agent在當前狀態好壞程度的函式。
對於MDP,某一個狀態的價值函式是
,在當前狀態某一個行動的價值函式是
。
policy
策略指在某個狀態採取行動a的概率,即 。
optimal policy
最優策略指價值函式最大。
對於任意MDP,均存在最優策略。所有最優決策都達到最優值函式和最優行動值函式。
MRP
Markov reward process是一個帶獎勵的馬爾科夫過程,表示為 ,其中S是狀態,P是狀態轉移矩陣,R是獎勵 , 是折扣率。
使得一個無限求和的問題轉化為了一個有限求和問題:
當
較大時,far-sighted;當
較大時,myopic。
MDP
MDP是一個智慧體通過採取行動,改變自己的狀態,與環境互動並獲得獎勵的迴圈過程,其策略完全取決於當前狀態。MDP可以認為是一個帶決策的MRP,表示為 ,其中A是行動。
基本上所有的RL問題都可以視為MDP。
MDP還有不少變種,比如說POMDP(Partially Observable MDP),例如自動駕駛汽車我們不知道在遇到某種情況,像撞車,對方採取行動的策略,這種有部分資訊未知的情況即屬於POMDP。
Bellman function
對於MRP,根據定義有
即
。
這個就是Bellman方程,改寫為矩陣形式:
可以看出來這是個線性方程,可以直接求解v:
時間複雜度為 ,只適用於狀態數較少的情況。對於更復雜的情況,一般用dynamic programming,Monte-Carlo evaluation或Temporal-Difference learning。
對於MDP,Bellman equation為