1. 程式人生 > 其它 >強化學習之路 - 01 基本概念

強化學習之路 - 01 基本概念

不斷更新……

分幕式(episodic)任務

分幕式任務有起始時刻最終時刻,在這類任務中,智慧體和環境的互動能被自然地分成一系列子序列(每個序列都存在最終時刻),稱每個子序列為幕 (episodes,在某些文獻中也被稱為trials),例如一盤遊戲、一次走迷宮的旅程或任何這類重複性的互動過程。每幕都以一種特殊狀態結束,稱之為終結狀態(terminal state)。隨後會重新從某個標準的起始狀態或起始狀態中的某個狀態樣本開始。即使結束的方式不同,例如比賽的勝負,下一幕的開始狀態與上一幕的結束方式完全無關。例如超級馬里奧,起始狀態就是遊戲開始介面,終結狀態就是被殺死或者到達最後關卡。因此,這些幕可以被認為在同樣的終結狀態下結束,只是對不同的結果有不同的收益。具有這種分幕重複特性的任務稱為分幕式任務。有時,我們需要區分非終結狀態集,記為\(S\)

,和包含終結與非終結狀態的所有狀態集,記作\(S^+\)

一般來說,我們尋求的是最大化期望回報,記為\(G_t\),它被定義為收益序列的一些特定函式。在最簡單的情況下,回報是收益的總和:

\[G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T \]

其中\(T\)為最終時刻。

持續性(continuous)任務

許多情況下,智慧體-環境的互動不一定能被自然地分為單獨的episode,而是持續不斷地發生。例如:長期執行的機器人應用、自動交易股票的機器人。智慧體在人為停止之前一直執行。我們稱這些為持續性任務。上面的回報公式用於描述持續性任務時會出現問題,因為最終時刻\(T=\infty\)

,並且我們試圖最大化的回報也很容易趨於無窮(例如,假設智慧體在每個時刻都收到+1的收益)。因此我們引入了折扣因子的概念。根據這種方法,智慧體嘗試選擇動作,使得它在未來收到的經過折扣係數加權後的收益總和是最大化的。此時,折後回報為:

\[G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

其中,\(\gamma\)是一個引數,\(0\le\gamma\le1\),被稱為折扣率