強化學習之基於表格型方法的規劃和學習（二）

阿新 • • 發佈：2021-09-30

注：本節內容是對Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 這裡是第三節

上一節講到使用Dyna演算法將學習和規劃結合到一起，實現線上規劃：一邊與環境互動積攢經驗，一邊利用經驗對當前情況進行總結尋找下一次與環境互動的合適動作。填充的都是完全正確的資訊。
那麼當環境發生變化，新的動態特性未被觀察到或模型是通過泛化能力較差的函式來近似等情況發生時，規劃過程可能會計算出次優的策略。

When the Model Is Wrong

根據環境的變化情況，我們可以分為環境變得更惡劣，環境變得更樂觀

屏障迷宮（惡劣）

從圖中可以看出在前一段時間迷宮處於一種狀態，過一段時間環境發生變化，曲線代表了智慧體的累積獎勵。
在這種情況下，前一段時間計算出來的最優策略（從右邊走）在後一段時間內並不適用。智慧體按照這個策略走的時候會發現這些機會根本不存在，所以會感知到模型錯誤，進而修正。

捷徑迷宮（樂觀）

當環境變得比以前更好（出現了更好的路），但以前的正確策略並沒有反應出這些改善時，學習會遇到很大困難（根本就不會過去試探）。在這類情況下，建模錯誤可能在很長一段時間都不會被檢測到。

說到底還是試探與開發之間的矛盾。在“規劃”意義下，“試探”意為著嘗試那些改善模型的動作，而“開發”意味著以當前模型的最優方式來執行動作。
所以書中提到了一種解決方法就是在Dyna+的基礎上增加了額外的試探收益來鼓勵試探性動作。
改進方式如下：

強化學習之基於表格型方法的規劃和學習（二）

注：本節內容是對Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 這裡是第三節

When the Model Is Wrong

屏障迷宮（惡劣）

捷徑迷宮（樂觀）

強化學習之基於表格型方法的規劃和學習（二）

強化學習之基於表格型方法的規劃和學習（三）

強化學習之基於表格型方法的規劃和學習（六）-- 決策時規劃

集中管理：領導者，不能不考慮的幾件事之——未來管理之路的“程度”、“廣度”和“深度”（二）...

滄小海基於xilinx srio核的學習筆記之第五章 xilinx srio核介紹（二）HELLO格式和流控

Grpc+MagicOnion的學習和例子（二）

Acwing-----演算法基礎課之第三章搜尋與圖論（二）

集中管理：領導者，不能不考慮的幾件事之——未來管理之路的“程度”、“廣度”和“深度”（一）...

重走py 之路 ——字典和集合（二）

Jmeter請求元件之引數化函式助手_CSVRead和RandomString（十三）

Linux（Ubuntu 18）之更改apt源為阿里雲源（二）

微服務之Consul服務註冊與發現叢集配置（二）

基於javaEE的簡單教務系統實現（二）

【前端 · 面試】JavaScript 之你不一定會的基礎題（二）

VUE3的學習和使用（二）vuex+ts的使用

面試系統化學習和準備（二）——docker篇

[機器學習]-[資料預處理]-中心化縮放 KNN（二）

基於input子系統的sensor驅動除錯（二）

Vue學習之axios的使用方法例項分析

jsp學習之scriptlet的使用方法詳解

強化學習之基於表格型方法的規劃和學習（二）

注：本節內容是對Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 這裡是第三節

When the Model Is Wrong

屏障迷宮（惡劣）

捷徑迷宮（樂觀）

相關推薦