Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

阿新 • • 發佈：2022-04-18

發表時間：2020（AAAI 2021）
文章要點：這篇文章提出Propositional Logic Nets (PROLONETS)，通過建立決策樹的方式來初始化神經網路的結構和權重，從而將人類知識嵌入到神經網路中作為初始化warm start，然後進行強化學習。
具體的，就是先把任務劃分成很多個和狀態相關的決策節點，通過賦予權重來嵌入人類知識，這樣就可以給出一個大體的策略，比如什麼情況下做什麼動作。然後把這個東西結合到神經網路中

裡面的引數是可以訓練的，最後輸出的是每個動作的概率。
另外，在訓練的過程中這個樹結構還能繼續擴充套件。在淺層樹結構的基礎上，再弄一個深層的結構，先隨機初始化權重，然後用淺層的結構選動作，然後更新的時候淺層和深層都更新。再通過計算entropy的方式，如果深層結構的entropy的和小於前面淺層結構的entropy，就用entropy小的深層結構替換掉之前的淺層結構。

最後作者還搞了個user study，就是說前面嵌入的知識都是專家提供的，用這個user study搞一個互動介面，讓普通人來提供知識，看看效果如何。得出的結論是就算是普通人，也能提高performance。然後作者就說這個東西可以促進democratize RL，就比較公平，沒有偏見吧。
總結：

思路還是挺有意思的，就是每個任務都需要具體先設計一個決策樹來嵌入人類知識，感覺有點麻煩不夠通用。
疑問：感覺裡面樹的構建和更新邏輯還有待考究，可能最開始如何構建決策樹是個大問題。
裡面提到的那個N-mistake不知道在說啥。

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

Learning to Combat Compounding-Error in Model-Based Reinforcement Learning

【論文閱讀】End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances

lec-4-Introduction to Reinforcement Learning

Reinforcement Learning (DQN) 中經驗池詳細解釋

論文記載： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

MFMARL(Mean Field Multi-Agent Reinforcement Learning)實現

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

讀論文--Characterizing Attacks on Deep Reinforcement Learning

Online and Offline Reinforcement Learning by Planning with a Learned Model

Evaluating the Performance of Reinforcement Learning Algorithms

Detecting Rewards Deterioration in Episodic Reinforcement Learning

Decoupling Value and Policy for Generalization in Reinforcement Learning

Game Theory and Multi-agent Reinforcement Learning筆記上

Offline Evaluation of Online Reinforcement Learning Algorithms

Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning

Explainable Reinforcement Learning Through a Causal Lens

Improving Generalization in Reinforcement Learning with Mixture Regularization

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

相關推薦