此為《強化學習》第五章。

上一節中的動態規劃方法需要知道整個environment的資訊，但有的時候，我們只有經驗 (Experience) （比如一組取樣），而對environment沒有任何其他知識；或者我們有一個可以互動的黑盒，通過黑盒可以進行模擬得到experience，但具體黑盒內的概率模型也是不知道的（或者非常難以計算的）。這種情況下，動態規劃方法不再適用，蒙特卡洛方法 (Monte Carlo Method, MC) 成為了新的解決方案。

蒙特卡洛估計

假設我們已經得到了一批在策略 $π$

π

$\pi$ 下的取樣，我們想以此估計每個狀態的值函式

v_{π} (s)

$v_\pi(s)$ 。我們定義任一取樣中的任一時刻通過狀態

s

$s$ 叫做對狀態

s

$s$ 的一次訪問 (Visit) 。通常有兩種方法來估計

v_{π} (s)

$v_\pi(s)$ 。首次訪問方法 (First-Visit MC Method) 以每個取樣下第一次訪問狀態

s

$s$ 時的回報的平均作為對

v_{π} (s)

$v_\pi(s)$ 的估計，每次訪問方法 (Every-Visit MC Method) 以每個取樣下每次訪問狀態

s

$s$ 時的回報的平均作為對

v_{π} (s)

$v_\pi(s)$ 的估計。即

\begin{aligned} v_{π} (s)_{f i r s t - v i s i t} = \frac{\sum_{e x p} G_{e x p, t}}{| G_{e x p, t} |} (S_{e x p, t} = s, S_{e x p, k} \neq s, \forall k < t) \\ v_{π} (s)_{e v e r y - v i s i t} = \frac{\sum_{e x p} G_{e x p, t}}{| G_{e x p, t} |} (S_{e x p, t} = s) \end{aligned}

$\begin{align*} & v_\pi(s)_{first-visit} = \frac{\sum_{exp} G_{exp,t}}{|G_{exp,t}|} (S_{exp,t} = s, S_{exp,k} \ne s, \forall k < t) \\ & v_\pi(s)_{every-visit} = \frac{\sum_{exp} G_{exp,t}}{|G_{exp,t}|} (S_{exp,t} = s) \end{align*}$

注意到 $G_t = R_{t+1} + G_{t+1}$ ，所以在遍歷時，需要從後向前遍歷求出回報 $G_t$ 。First-Visit方法和Every-Visit方法非常類似，但在理論性質上略有不同。本章主要討論First-Visit方法，以下給出First-Visit蒙特卡洛估計方法的虛擬碼。

蒙特卡洛方法聽起來非常簡單，但也已經可以用來解決一些問題了，比如21點 (Blackjack) 。

蒙特卡洛方法對行為值函式的估計

如果我們已知狀態之間跳轉的概率模型，那麼上述的對狀態值函式的估計就足夠了，因為我們可以通過貪心演算法，得到確定性的策略（即 $\pi(s)=a$ ）。但如果我們不知道狀態之間的概率模型，那麼我們就無法確定狀態 $s$ 能跳轉到其他哪些狀態。此時，對行為值函式進行估計是一種可行的方法。

對行為值函式的估計和狀態值函式非常類似，它也是統計每次在狀態 $s$ 選擇行為 $a$ 得到回報的平均。類似地，它也可以分成首次訪問方法和每次訪問方法，表示式如下：

\begin{aligned} q_{π} (s, a)_{f i r s t - v i s i t} = \frac{\sum_{e x p} G_{e x p, t + 1}}{| G_{e x p, t + 1} |} (S_{e x p, t} = s \cap A_{e x p, t} = a, S_{e x p, k} \neq s \cup A_{e x p, k} \neq a, \forall k < t) \\ q_{π} (s, a)_{e v e r y - v i s i t} = \frac{\sum_{e x p} G_{e x p, t + 1}}{| G_{e x p, t + 1} |} (S_{e x p, t} = s \cap A_{e x p, t} = a) \end{aligned}

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

蒙特卡洛估計

蒙特卡洛方法對行為值函式的估計

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

強化學習（RLAI）讀書筆記第五章蒙特卡洛方法

強化學習（RLAI）讀書筆記第四章動態規劃

《強化學習Sutton》讀書筆記（七）——列表法的計劃與學習（Planning and Learning with Tabular Methods）

《強化學習Sutton》讀書筆記（六）——n步Bootstrapping（n-step Bootstrapping）

《強化學習Sutton》讀書筆記（五）——時序差分學習（Temporal-Difference Learning）

強化學習（RLAI）讀書筆記第八章表格方法的規劃與學習

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

Linux學習筆記之四————Linux常用命令（待補充）

《C++ Primer Plus》學習筆記——第四章複合型別（四）

《C++ Primer Plus》學習筆記——第四章複合型別（三）

《C++ Primer Plus》學習筆記——第四章複合型別（二）

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

《好好學習》讀書筆記（三）第二章：掌握臨界知識的方法

網路是怎樣連線的學習筆記-第四章-光纖接入網（FTTH）

網絡是怎樣連接的學習筆記-第四章-光纖接入網（FTTH）

Shell指令碼學習指南讀書筆記（一）

周志華《機器學習》讀書筆記（1）

EffectiveJava讀書筆記——考慮用靜態工廠方法代替構造器（一）

Pandas學習筆記，字符串方法（string method）

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

蒙特卡洛估計

蒙特卡洛方法對行為值函式的估計

相關推薦