強化學習筆記四 DP, MC, TD小結
阿新 • • 發佈:2018-12-25
前兩篇介紹了三種RL方法,DP,MC和TD,本篇進行一個總結和對比。
Backup
先來看看backup的區別:
DP
MC
TD
Bootstrapping & sampling
Bootstrapping指更新中包含估計值,sampling指是否用期望還是取樣來更新
DP
Bootstrap, does not sample
MC
no Bootstrap, sample
TD
Bootstrap, sample
MC vs TD
TD 可以在每一步之後更新策略,並且不需要完整的episode,所以TD可以用於持續不終止的環境中。MC需要等一整個eposide結束之後才能更新,episode必須完整,只能用在eposide終止的時候。
MC是0 bias,high variance,TD是some bias,low variance。
MC中的return 是 的無偏估計,TD target 是有偏估計,真實TD target 才是無偏估計。
TD target的方差比return要小,因為return與許多隨機行動,狀態轉移和回饋有關,而TD target只與一個隨機行動相關。
MC對初始值不敏感,一定會收斂,TD對初始值敏感,TD(0)一定會收斂,但其他function approximation不一定。一般來說TD收斂速度會快於MC。
總的來說,MC對於已有資料表現更好,TD對未來資料表現更好。