ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

阿新 • • 發佈：2021-12-16

發表時間：2021（ICLR 2021）
文章要點：這篇文章想要分析model-based reinforcement learning (MBRL)裡面各個部分的作用。文章以muzero為基礎，回答了三個問題
(1) How does planning benefit MBRL agents?
(2) Within planning, what choices drive performance?
(3) To what extent does planning improve generalization?
得出的結論是
（1）planning在learning階段使用是最有用的，作用主要體現在生成資料和計算learning target，評估階段在大多數環境上只有輕微提升。
（2）除了某些複雜的需要推理的任務，大多數任務只需要淺層的planning就足夠了，太深是沒有必要的。甚至直接Monte-Carlo rollouts而不需要tree search就夠了（Note that DUCT = 1 corresponds to only exploring with pUCT at the root node and performing pure Monte-Carlo sampling thereafter. We find DUCT to have no effect in any environment except 9x9 Go）。
（3）只靠planning不足以產生強大的泛化性。
作者把MBRL分成兩大類，一類是decision-time planning，通過model來選擇動作。另一類是background planning，用model來更新policy，policy選動作。然後作者認為muzero和各種MBRL都有很深刻的聯絡，比如直接用MCTS就是decision-time planning，訓練的時候用MCTS，選擇動作的時候直接用policy就是background planning，所以用muzero來做實驗再好不過。
作者基於muzero做了這麼幾個變種：One-Step，Learn，Data，Learn+Data，Learn+Data+Eval。這裡先要解釋幾個和planning相關的定義，如下圖

\(D_{tree}\)

是整個搜尋過程的深度，\(D_{UCT}\)就是說用MCTS搜尋的深度，\(B\)是search budget，表示總的搜尋次數。如果搜尋深度小於\(D_{UCT}\)，就用MCTS的方式搜尋；如果超過了\(D_{UCT}\)但是沒有超過\(D_{tree}\)，就通過policy來搜尋；如果到達了\(D_{tree}\)，就停止搜尋。
另外在介紹幾種變種的含義之前，還要區分幾個詞的意思，learning，act，training，test。Learning就是說學value和policy的過程，如果是\(D_{tree}\)=1，就只有一步的target value，就相當於1-step Q learning的形式。Act指做動作用什麼，用MCTS選動作或者用policy輸出動作。Training就是指整個訓練過程，這個過程既包括訓練網路，也包括planning，所以自然會包括learning和act。Test就是測試或者說評估，這個過程會包括act。然後幾種變種的含義如下：
One-Step就是learning的時候設定\(D_{tree}=1\)

，只估計1-step return，訓練和評估的動作都通過policy網路輸出。Model的訓練就只預測一步，其他的變種都預測的5步。所以這個變種比較像model free的版本，因為只會planning一步，而且整個更新和Q learning很像。
Learn就是在learning的時候設定\(D_{tree}=\infty\)，就會有n-step return來做target value。但是訓練和評估的動作還是通過policy網路輸出。這相當於度量搜尋深度對learning的影響，而不是act，而且這裡並沒有MCTS。
Data就是在learning的時候設定\(D_{tree}=1\)

，訓練的時候動作通過MCTS選擇，MCTS的深度為\(D_{tree}=\infty\)，test的時候動作用policy網路輸出。這相當於度量MCTS在收集資料中的作用。
Learn+Data就是在learning的時候設定\(D_{tree}=\infty\)，訓練的時候動作通過MCTS選擇，MCTS的深度為\(D_{tree}=\infty\)，test的時候動作用policy網路輸出。
Learn+Data+Eval就是muzero。

測試結果如下圖

此外，作者還給出了一些很有意思的結論：
很多環境可能並不適合用來測試model based方法和planning，因為這些環境可能就不需要複雜的推理。
如果你的value和policy在learning的時候沒有學好，那planning也不會有用。
增加planning的budget通常有好處，但太大甚至會有壞處，這點我估計應該是model不準的原因（compounding model errors）。
總結：很有意思的一篇文章，實驗做的很多，結論也很有意思。
疑問：關於第一條結論：planning在learning階段使用是最有用的，作用主要體現在生成資料和計算learning target，評估階段在大多數環境上只有輕微提升。感覺在policy初期的時候，評估階段的planning應該會很有用吧。

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

發表時間：2021（ICLR 2021）文章要點：這篇文章想要分析model-based reinforcement learning (MBRL)裡面各個部分的作用。文章以muzero為基礎，回答了三個問題

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

發表時間：2018（ICRA 2018）文章要點：這篇文章提出了一個叫model-based and model-free (Mb-Mf)的演算法，先用model based的方法訓一個policy，再用model free的方法來fine tune。具體的，先學一個model，然後用pl

Model-free Deep Reinforcement Learning for Urban Autonomous Driving

鄭重宣告：原文參見標題，如有侵權，請聯絡作者，將會撤銷釋出！ 2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC), (2019): 2765-2771

The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

發表時間：2019 文章要點：文章分析了Dyna這種model based方法，用model去生成one-step的transition和n-step的transition的區別，得出的主要結論是one-step的transition基本上沒有任何幫助，還不如直接用現有的buf

論文閱讀：The Role of “Condition”: A Novel Scientific Knowledge Graph Representation and Construction Model

“條件”的作用:一種新的科學知識圖表示與構建模型 Abstract 　　條件關係在科學觀測、假設和陳述中起著重要作用，但是現有的科學知識圖譜（SicKgs）與一般領域的知識圖譜（KGs）一樣，沒有考慮事實有效的條件，僅

A note on the calculation of some functions in finite fields: Tricks of the Trade解讀

本節對該paper進行解讀，記錄筆記。經常見到的是在素域\\(F_p\\)上計算的，尤其是雙線性對出現後，在擴域\\(F_{p^m}\\)上計效率就需要優化了。該論文主要總結了一些在有限域上進行某些計算（求模逆，hash到curve的

python計算每個陣列中數字出現次數（python count the occurrence of digist in an array）

在進行影象處理的時候，我們經常會碰到 array 格式的資料，有時候，在看別人程式碼的時候，為了判斷某個陣列是否是二值影象的時候，我經常想要看變數中是否只存在 0 和 1 兩種元素，所以上網找了好的實現方法，分享

What are the uses of “using” in C#?

What are the uses of “using” in C#? The reason for the using statement is to ensure that the object is disposed as soon as it goes out of scope, and it doesn\'t require explicit code to ensure that

the summury of array in C.

這個作業屬於哪個班級 C語言--網路2011/2012 這個作業的地址 C語言部落格作業04--陣列

the summury of pointer in C.

這個作業屬於哪個班級 C語言--網路2011/2012 這個作業的地址 C語言部落格作業05--指標

Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning

發表時間：2020（ICML 2020）文章要點：這篇文章想說model based方法在data efficiency和planning方面都具有天然優勢，但是model的泛化性通常是個問題。這篇文章提出學一個context相關的latent vector，然後用mod

Learning to Combat Compounding-Error in Model-Based Reinforcement Learning

發表時間：2019（NeurIPS 2019 Deep Reinforcement Learning Workshop）文章要點：這篇文章想說model based方法裡面通常model都是imperfect的，就是這個model一般只在區域性是準確的，放到全域性上看誤差會越來越

Identify three possible adverse effects on an entity’s financial statements arising from recognition of a lease arrangement on the statement of financial position.

論文記載： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

強化學習論文記載論文名： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks （車輛網路交通訊號燈控制的深度強化學習）---年份：2018.3

讀論文--Characterizing Attacks on Deep Reinforcement Learning

paper：https://arxiv.org/abs/1907.09470 〇、摘要 DRL在各種應用中取得了巨大的成功，然而最近研究表明，機器學習模型很容易受到對抗性攻擊。一方面，可以通過給觀測值新增擾動，另一方面，也是更具實操性的攻擊方

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

發表時間：2021（ICML 2021）文章要點：這篇文章提出了一個叫REPresentation And INstance Transfer (REPAINT)的演算法來做RL裡的知識遷移。主要方法就是representation transfer和instance transfer。這個repres

ORA-12012: error on auto execute of job 25；ORA-12005: may not schedule automatic refresh for times in the past

　　使用BethuneX做巡檢，連續報如下錯誤： --錯誤 Thu Oct 29 14:36:04 2020 Errors in file /u01/app/oracle/diag/rdbms/mtws/mtws/trace/mtws_j000_33913.trc:

Property or method "info" is not defined on the instance but referenced during render. Make sure that this property is reactive, either in the data option, or for class-based components,

原始碼 App.Vue <template> <div> <test v-for=\"post in posts\" v-bind:title=\"post.title\">

A knowledge representation model based on the geographic spatiotemporal process

A knowledge representation model based on the geographic spatiotemporal process（基於地理時空過程的知識表示模型）

visual studio (window10) dark主題下修改游標粗細（visual studio change the thickness of the cursor in dark theme for window10）

本人電腦配置：window10系統， Microsoft Visual Studio 2019 本來在visual studio中設定了 dark 的主題，想說使電腦亮度小點，但是發現游標強度太小，經常看不到，既浪費了尋找游標的時間，又不利於眼睛，所以上網

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

相關推薦