1. 程式人生 > 其它 >強化學習之基於表格型方法的規劃和學習(二)

強化學習之基於表格型方法的規劃和學習(二)

注:本節內容是對Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 這裡是第三節

上一節講到使用Dyna演算法將學習和規劃結合到一起,實現線上規劃:一邊與環境互動積攢經驗,一邊利用經驗對當前情況進行總結尋找下一次與環境互動的合適動作。填充的都是完全正確的資訊。
那麼當環境發生變化,新的動態特性未被觀察到或模型是通過泛化能力較差的函式來近似等情況發生時,規劃過程可能會計算出次優的策略。

When the Model Is Wrong

根據環境的變化情況,我們可以分為環境變得更惡劣,環境變得更樂觀

屏障迷宮(惡劣)


從圖中可以看出在前一段時間迷宮處於一種狀態,過一段時間環境發生變化,曲線代表了智慧體的累積獎勵。
在這種情況下,前一段時間計算出來的最優策略(從右邊走)在後一段時間內並不適用。智慧體按照這個策略走的時候會發現這些機會根本不存在,所以會感知到模型錯誤,進而修正。

捷徑迷宮(樂觀)


當環境變得比以前更好(出現了更好的路),但以前的正確策略並沒有反應出這些改善時,學習會遇到很大困難(根本就不會過去試探)。在這類情況下,建模錯誤可能在很長一段時間都不會被檢測到。

說到底還是試探與開發之間的矛盾。在“規劃”意義下,“試探”意為著嘗試那些改善模型的動作,而“開發”意味著以當前模型的最優方式來執行動作。
所以書中提到了一種解決方法就是在Dyna+的基礎上增加了額外的試探收益來鼓勵試探性動作。
改進方式如下: