1. 程式人生 > >強化學習筆記四 DP, MC, TD小結

強化學習筆記四 DP, MC, TD小結

前兩篇介紹了三種RL方法,DP,MC和TD,本篇進行一個總結和對比。

Backup

先來看看backup的區別:
DP
在這裡插入圖片描述
MC
在這裡插入圖片描述
TD
在這裡插入圖片描述

Bootstrapping & sampling

Bootstrapping指更新中包含估計值,sampling指是否用期望還是取樣來更新
DP
Bootstrap, does not sample

MC
no Bootstrap, sample

TD
Bootstrap, sample

MC vs TD

TD 可以在每一步之後更新策略,並且不需要完整的episode,所以TD可以用於持續不終止的環境中。MC需要等一整個eposide結束之後才能更新,episode必須完整,只能用在eposide終止的時候。

MC是0 bias,high variance,TD是some bias,low variance。

MC中的return G t G_t v π

( s ) v_\pi(s) 的無偏估計,TD target R t +
1 + γ v ( s t + 1 ) R_{t+1} + \gamma v(s_{t+1})
是有偏估計,真實TD target R t + 1 + γ v π ( s t + 1 ) R_{t+1} + \gamma v_\pi(s_{t+1}) 才是無偏估計。

TD target的方差比return要小,因為return與許多隨機行動,狀態轉移和回饋有關,而TD target只與一個隨機行動相關。

MC對初始值不敏感,一定會收斂,TD對初始值敏感,TD(0)一定會收斂,但其他function approximation不一定。一般來說TD收斂速度會快於MC。

總的來說,MC對於已有資料表現更好,TD對未來資料表現更好。

DP vs TD

在這裡插入圖片描述

在這裡插入圖片描述