強化學習之路 - 01 基本概念

阿新 • • 發佈：2022-03-02

不斷更新……

分幕式（episodic）任務

分幕式任務有起始時刻和最終時刻，在這類任務中，智慧體和環境的互動能被自然地分成一系列子序列（每個序列都存在最終時刻），稱每個子序列為幕 (episodes，在某些文獻中也被稱為trials)，例如一盤遊戲、一次走迷宮的旅程或任何這類重複性的互動過程。每幕都以一種特殊狀態結束，稱之為終結狀態(terminal state)。隨後會重新從某個標準的起始狀態或起始狀態中的某個狀態樣本開始。即使結束的方式不同，例如比賽的勝負，下一幕的開始狀態與上一幕的結束方式完全無關。例如超級馬里奧，起始狀態就是遊戲開始介面，終結狀態就是被殺死或者到達最後關卡。因此，這些幕可以被認為在同樣的終結狀態下結束，只是對不同的結果有不同的收益。具有這種分幕重複特性的任務稱為分幕式任務。有時，我們需要區分非終結狀態集，記為\(S\)

，和包含終結與非終結狀態的所有狀態集，記作\(S^+\)。

一般來說，我們尋求的是最大化期望回報，記為\(G_t\),它被定義為收益序列的一些特定函式。在最簡單的情況下，回報是收益的總和：

\[G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_T \]

其中\(T\)為最終時刻。

持續性（continuous）任務

許多情況下，智慧體-環境的互動不一定能被自然地分為單獨的episode，而是持續不斷地發生。例如：長期執行的機器人應用、自動交易股票的機器人。智慧體在人為停止之前一直執行。我們稱這些為持續性任務。上面的回報公式用於描述持續性任務時會出現問題，因為最終時刻\(T=\infty\)

，並且我們試圖最大化的回報也很容易趨於無窮（例如，假設智慧體在每個時刻都收到+1的收益）。因此我們引入了折扣因子的概念。根據這種方法，智慧體嘗試選擇動作，使得它在未來收到的經過折扣係數加權後的收益總和是最大化的。此時，折後回報為：

\[G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

其中，\(\gamma\)是一個引數，\(0\le\gamma\le1\)，被稱為折扣率。

強化學習之路 - 01 基本概念

不斷更新……

分幕式（episodic）任務

持續性（continuous）任務

強化學習之路 - 01 基本概念

python 學習之路 01

我的Java學習之路01——基礎語法

Python學習之路安裝pycharm的教程詳解

Python學習之路之pycharm的第一個專案搭建過程

redis分散式鎖學習之路1-RedisTemplate實現分散式鎖

Redis學習之路（三）之Redis主從和哨兵模式

Redis學習之路（四）之Redis叢集

Redis學習之路（二）之Redis入門基礎

JavaSE之路-01

hadoop學習之路(2)

Python學習之路第一節：關鍵字和識別符號詳解！

Python學習之路第二節：Python語句，縮排和註釋的重要性

Linux 學習之路（2）--建立檔案

Python學習之路第三節:Python變數，常量和文字詳解

MySQL學習之路(一)---資料庫儲存引擎

強化學習之 SARSA (State-Action-Reward-State’-Action’)

（零基礎可以看懂）深度強化學習之DQN類演算法之第1篇-2013年NeurIPS版本的DQN（含程式碼）-《強化學習系列專欄第4篇》

ffmpeg學習之路·番外篇之音視訊分析常用軟體介紹與分享

Linux初學之——網路的基本概念

強化學習之路 - 01 基本概念

不斷更新……

分幕式（episodic）任務

持續性（continuous）任務

相關推薦