1. 程式人生 > 其它 >Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning


發表時間:2020(AAAI 2021)
文章要點:這篇文章提出Propositional Logic Nets (PROLONETS),通過建立決策樹的方式來初始化神經網路的結構和權重,從而將人類知識嵌入到神經網路中作為初始化warm start,然後進行強化學習。
具體的,就是先把任務劃分成很多個和狀態相關的決策節點,通過賦予權重來嵌入人類知識,這樣就可以給出一個大體的策略,比如什麼情況下做什麼動作。然後把這個東西結合到神經網路中

裡面的引數是可以訓練的,最後輸出的是每個動作的概率。
另外,在訓練的過程中這個樹結構還能繼續擴充套件。在淺層樹結構的基礎上,再弄一個深層的結構,先隨機初始化權重,然後用淺層的結構選動作,然後更新的時候淺層和深層都更新。再通過計算entropy的方式,如果深層結構的entropy的和小於前面淺層結構的entropy,就用entropy小的深層結構替換掉之前的淺層結構。

最後作者還搞了個user study,就是說前面嵌入的知識都是專家提供的,用這個user study搞一個互動介面,讓普通人來提供知識,看看效果如何。得出的結論是就算是普通人,也能提高performance。然後作者就說這個東西可以促進democratize RL,就比較公平,沒有偏見吧。
總結:

思路還是挺有意思的,就是每個任務都需要具體先設計一個決策樹來嵌入人類知識,感覺有點麻煩不夠通用。
疑問:感覺裡面樹的構建和更新邏輯還有待考究,可能最開始如何構建決策樹是個大問題。
裡面提到的那個N-mistake不知道在說啥。