1. 程式人生 > 其它 >RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS

RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS


發表時間:2020(ICLR 2020)
文章要點:這篇文章提出了一個新的intrinsic reward機制,Rewarding Impact-Driven Exploration (RIDE),鼓勵agent採取使得狀態表徵變化大的動作,相較於之前的方法,這個方式在procedurally-generated environments這類很難訪問同一個狀態多次的環境上效果更好(這裡作者提出了兩類sparse reward的環境,singleton和procedurally-generated。Singleton指環境每次都一樣,不會因為不同episode而有區別,比如Montezuma's Revenge每次出生點位一樣,關卡也一樣。procedurally-generated就是環境是逐漸生成的,並且每次生成都不一樣)。同時作者說這個方法的intrinsic reward不會隨著訓練過程而減少,並且這種根據狀態表徵的差異來設計intrinsic reward的方式更偏向於agent的動作對環境起作用的目標,從而不會overfitting到一些無關特徵上(our intrinsic reward does not diminish during the course of training and it rewards the agent substantially more for interacting with objects that it can control)。
具體的,作者首先學一個state representation

然後根據這個representation學一個forward dynamics model和inverse dynamics model。前向模型根據\(\phi_t\)

\(a_t\)預測下一個\(\phi_(t+1)\),

訓練的損失函式為

後向模型根據\(\phi_t\)\(\phi_(t+1)\)來預測agent採取了什麼動作

訓練的損失函式為交叉熵損失

有了這個之後,intrinsic reward就根據相鄰兩個狀態的表徵的差異給出

其中\(N_{ep}\)是訪問次數,如果狀態空間是高維空間,就用episodic pseudo-counts代替。然後整個訓練的目標函式為

第一個損失是RL的損失,第二個是前向網路的損失,第三個是後向網路的損失。
總結:很自然的一個想法,可能做出來就是效果好吧。不過這些方法離真正解決sparse reward問題還很遠啊。這類問題確實太難了,任重道遠,加油啊大家。
疑問:
之前有paper說intrinsic reward要diminish才能保證收斂漸進無偏,然後這篇文章又說不diminish的intrinsic reward才好,這。。。