1. 程式人生 > >值迭代、策略迭代

值迭代、策略迭代

值函式

策略: 狀態s到動作a的對映:π:SA
值函式:值函式都是對應於特定的策略的,即Vπ
對於策略π,狀態s的值函式:

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].

也可表示為Bellman形式,是一種迭代思想:

Vπ(s)=R(s)+γsSPsπ(s)(s)Vπ(s).

其中Psπ(s)(s) 表示對應於策略 π 的狀態轉移概率,即從s轉到s’的概率

最優的值函式

對於某狀態s的最優值函式用V(s)
定義如下:
V(s)=maxπVπ(s).
由上式可知,最優的策略π對應最優的值函式、

寫成Bellman方程就是:

V(s)=R(s)+maxaAγsSPsa(s)V(s).

最優的策略

π表示
在某一狀態s下的最優策略定義如下:

π(s)=argmaxaAsSPsa(s)V(s).

值迭代

這裡寫圖片描述

策略迭代

這裡寫圖片描述

其中V:=Vπ的計算可根據第一節值函式的定義計算