1. 程式人生 > >TD Temporal-Difference Learning 時序差分法(差分學習)

TD Temporal-Difference Learning 時序差分法(差分學習)

temporary
英 ['temp(ə)rərɪ]美 [ˈtempəreri]
adj. 臨時的,暫時的;短暫的

n. 臨時工,臨時僱
TD演算法是RL的核心演算法。TD是DP和MC演算法的結合。Like DP, TD methods without waiting for a final outcome (they bootstrap)。

TD(0), or one-step TD

在這裡插入圖片描述
MC和TD演算法的比較

Advantages of TD Prediction Methods

TD methods update their estimates based in part on other estimates. They learn a guess from a guess,they bootstrap.
在這裡插入圖片描述

Q-learning: Off-policy TD Control

在這裡插入圖片描述
在這裡插入圖片描述