Risk-Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search
發表時間:2021 (AAMAS 2021 extended abstract)
文章要點:這篇文章想說通常RL都是去最大化累計回報,這個值通常都是標量,標量反映出來的資訊肯定就沒有分佈多。這篇文章就在risk-aware and multi-objective的設定下用MCTS來做distributional這個事情(Distributional Monte Carlo Tree Search)。具體來說,這個時候的reward變成了向量形式,最後用效用函式(utility)轉成一個最終的標量。這裡有兩個指標,一個是scalarised expected returns (SER)
就是先求期望,然後再作用到utility上變成標量。另一個是expected scalarised returns (ESR)
就是先作用到utility上變成標量,再求期望。作者想說他這個DMCTS的方式對於兩者都適用,而且對於分線性的utility也適用。
方法上來看,MCTS沒有變,還是Selection,Expansion,Simulation,Backpropagation這幾個步驟,只是裡面的reward變成了維護一個向量,並且和圍棋不一樣的是樹裡面多了chance node。然後selection的時候沒用UCT,而是用Bootstrap Thompson Sampling,這個邏輯上和UCT其實差不多,思路就是根據之前的訪問資料,更新引數α,β從而更新後驗分佈,然後根據分佈去選使得ESR或者SER最大的動作。這裡的exploration主要就是由bootstrap完成,不同的bootstrap會產生不同的α,β,從而平衡exploitation和exploration。
總結:
疑問:risk-aware到底是啥?
兩個指標ESR和SER從真實含義上來看,有啥區別?
文章裡面一直提過去的回報和未來的回報
我感覺所有RL的演算法都會考慮這個吧,不知道這個地方強調的點在哪?
文章一直強調utility function是線性或者非線性的區別,這個在演算法層面有什麼影響?