1. 程式人生 > 其它 >為何RL泛化這麼難:UC伯克利博士從認知POMDP、隱式部分可觀察解讀

為何RL泛化這麼難:UC伯克利博士從認知POMDP、隱式部分可觀察解讀

https://zhuanlan.zhihu.com/p/439057436

強化學習為何泛化如此困難?來自加州大學伯克利分校等機構的研究者從認知 POMDP、隱式部分可觀察兩個方面進行解釋。

機器之心報道,編輯:陳萍、杜偉。

當今強化學習(RL)的問題很多,諸如收斂效果不好。在偏弱的實驗環境裡,模型測試結果看起來尚可,許多問題暴露得不明顯,但大量實驗已經證明深度 RL 泛化很困難:儘管 RL 智慧體可以學習執行非常複雜的任務,但它似乎對不同任務的泛化能力較差,相比較而言,監督深度網路具有較好的泛化能力。

有研究者認為,對於監督學習來說,發生一次錯誤只是分類錯一張圖片。而對於 MDP(馬爾可夫決策過程)假設下的 RL,一次識別錯誤就會導致次優決策,甚至可能一直錯誤下去,這也是 RL 在現實世界沒法用的根源。

為什麼強化學習的泛化能力從根本上來說很難,甚至從理論的角度來說也很難?來自加州大學伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解釋了這一現象,文章從認知 POMDP(Epistemic POMDP)、隱式部分可觀察(Implicit Partial Observability)兩個方面進行解釋。論文共同一作 Dibya Ghosh 的研究方向是使用強化學習進行決策。之前,他曾在蒙特利爾的 Google Brain 工作。

論文地址:arxiv.org/pdf/2107.0627

通過示例進行學習

在正式分析 RL 泛化之前,研究者首先通過兩個示例解釋 RL 中泛化困難的原因。

猜圖遊戲

在這個遊戲中,RL 智慧體在每個回合(episode)中都會看到一張影象,並儘可能快地猜出影象標籤(下圖 1)。每個時間步長內(timestep),智慧體必須進行一次猜測;如果猜測正確,那麼這一回合就結束了。但如果猜錯了,則智慧體會收到一個負反饋,並要在下一個回合中對相同的影象進行其他猜測。因為每張影象都有唯一的標籤(有正確的標籤函式 f_true:x—>y),智慧體接收影象作為觀測,這是一個完全可觀測的 RL 環境。

圖 1:在猜圖遊戲中,智慧體反覆猜測影象標籤,直到正確為止。

假設我們可以訪問無限數量的訓練影象,並使用標準 RL 演算法學習策略。該策略將學習如何確定地預測真實標籤(y:=f_true(x)),同時這也是 MDP 中的最高回報(return)策略。假如只有一組有限的訓練影象,RL 演算法仍然會學習相同的策略,確定性地預測與影象匹配的標籤。

但是,這種策略的泛化能力如何呢?在未見過的測試影象上,如果智慧體預測標籤仍然正確,智慧體將會獲得最高的獎勵;如果不正確,智慧體會收到災難性的低迴報,因為它永遠不會猜到正確的標籤。這種災難性的失敗模式一直存在,因為即使現代深度網路提高了泛化能力並減少了錯誤分類的機會,但測試集上的錯誤也不能完全減少到 0。

我們能做得比這種確定性預測策略更好嗎?因為學習 RL 策略忽略了猜圖遊戲的兩個顯著特徵:1) 智慧體會在一個回合中接收猜測是否正確的反饋,以及 2) 智慧體可以在未來的時間步長中更改其猜測。消除過程(process-of-elimination)策略可以很好地利用這兩個特徵:首先,RL 會選擇它認為最有可能的標籤,如果不正確,則消除該標籤並適應下一個最有可能的標籤,依此類推。然而,這種基於記憶的自適應策略永遠不會被標準 RL 演算法學習,因為它們優化了 MDP 目標並且只學習確定性和無記憶策略。

迷宮求解演算法

作為 RL 泛化基準測試的主要內容,迷宮求解問題要求智慧體可以導航到迷宮中的目標,並且給出整個迷宮的鳥瞰圖。這項任務是完全基於觀察的,智慧體通過觀察展示整個迷宮圖。因此,最優策略是無記憶和確定性的,只要智慧體沿著最短路徑到達目標即可。

就像在猜圖遊戲中一樣,RL 通過最大化訓練迷宮佈局內的回報,確定性會採取它認為以最短路徑到達目標的行動(action)。

這種 RL 策略泛化能力很差,因為如果學習策略選擇了一個錯誤的動作,比如撞牆或折回原來的道路,它將繼續迴圈同樣的錯誤並且永遠無法解決迷宮問題。但是,這種失敗模式是完全可以避免的,因為即使 RL 智慧體最初採取了這樣一個不正確的行動,在經過幾次跟隨之後,智慧體會收到所採取的行為正確與否的資訊(比如基於下一次觀察)。

為了儘可能地進行泛化,如果智慧體最初的行動導致了意想不到的結果,那麼智慧體應該適應它所選擇的行動,但是這種行動迴避了標準的 RL 目標。

圖 2:在迷宮任務中,RL 策略泛化能力很差:當出現錯誤時,它們會重複犯同樣的錯誤,導致失敗(左)。泛化良好的智慧體也會犯錯誤,但具有適應性和從這些錯誤中恢復的能力(右)。用於泛化的標準 RL 目標不會學習這種行為。

圖 3:有限的訓練資料集使智慧體無法準確地恢復真實環境。相反,存在一種隱式部分可觀察,因為智慧體不知道在一組一致的環境中哪一個是真實的環境。

當給智慧體一個小的上下文訓練集時,許多動態模型與提供的訓練上下文匹配,但與保留(held-out)的上下文有所不同。這些相互矛盾的假設體現了智慧體在有限訓練集中的認知不確定性。更重要的是,智慧體通過軌跡接收到的資訊,可以在評估時改變其認知不確定性。假設對於猜謎遊戲中的影象,智慧體最初在「t-shirt / coat」標籤之間不確定。如果智慧體猜測「t-shirt 」並收到錯誤的反饋,智慧體會改變其不確定性並對「 coat」標籤變得更有信心,這意味著它應該因此而適應並猜測「 coat」。

認知 POMDP 與隱示部分可觀察

RL 智慧體有兩種方式處理其認知不確定性:主動轉向低不確定性區域和採用資訊收集。但是它們都沒有回答這些問題:「是否有一個最好的方法來處理不確定性,如果有的話,我們該如何描述呢?」從貝葉斯的角度來看,事實證明存在這樣一個最優解:最優泛化要求我們解決「部分可觀察的馬爾可夫決策過程 (POMDP)」,POMDP 隱式地由智慧體認知不確定性建立。

認知 POMDP(epistemic POMDP)作用如下:由於智慧體只能看到有限的訓練集,因此有許多可能的環境與提供的訓練上下文一致。一致的環境集可以通過貝葉斯後驗對環境進行編碼 P(M | D),在認知 POMDP 的每一個階段中,智慧體被放入這種一致的環境中 M~P(M | D),並要求在其中最大化獎勵。

該系統對應於 POMDP,因為行動所需的相關資訊,智慧體只能通過部分觀察到:雖然環境中的狀態被觀察到,但環境 M 生成這些狀態的資訊對智慧體是隱藏的。認知 POMDP 將泛化問題例項化到貝葉斯 RL 框架中,該框架更一般性地研究了 MDP 分佈下的最優行為。

圖 4:在認知 POMDP 中,智慧體在每個階段中與不同的相互一致環境進行互動,但不知道它具體與哪個互動可以導致部分可觀察性。要想做得好,智慧體必須採用(可能基於記憶體的)策略,使得其無論置於哪個環境中,都可以很好地工作。

讓我們通過一個示例來了解認知 POMDP 。對於猜謎遊戲,智慧體不確定影象究竟如何標記,因此每個可能的環境 M∼P(M∣D) 對應於不同影象標籤器,其與訓練資料集保持一致:f_M:X→Y。在猜謎遊戲的認識 POMDP 中,每階段隨機選擇一個影象 x 和標籤器 f_M,並要求智慧體輸出取樣分類器 y=f_M(x) 分配的標籤。智慧體不能直接這樣做,因為分類器的身份沒有提供給智慧體,只提供了影象 x。如果所有標籤器 f_M 後驗都同意某個影象的標籤,則智慧體可以只輸出這個標籤(沒有部分可觀察性)。但是,如果不同的分類器分配不同的標籤,則智慧體必須使用平均效果良好的策略。

認知 POMDP 還強調了從有限訓練集上下文中學習策略的危險:在訓練集上執行完全可觀察的 RL 演算法。這些演算法將環境建模為 MDP,並學習 MDP 最優策略,即確定性和馬爾可夫策略。這些策略不考慮部分可觀察性,因此往往泛化性很差(例如在猜謎遊戲和迷宮任務中)。這表明基於 MDP 訓練目標(現代演算法標準)與認知 POMDP 訓練目標(實際上決定了所學習策略的泛化程度)之間存在不匹配。

在 RL 中推進泛化

我們應該怎麼做才能學習更好泛化的 RL 策略?認知 POMDP 提供了一個規範的解決方案:當可以計算智慧體在環境上的後驗分佈時,通過構建認知 POMDP 並在其上執行 POMDP 求解演算法將產生泛化貝葉斯最優的策略。

遺憾的是,在大多數有趣的問題中,還不能完全做到。儘管如此,認知 POMDP 可以作為設計具有更好泛化能力 RL 演算法的標杆。作為第一步,研究者在論文中引入了一種稱為 LEEP 的演算法,該演算法使用統計自助法 (Bootstrapping) 來學習近似認知 POMDP 的策略。

在具有挑戰性的 RL 智慧體泛化基準測試 Procgen 上,LEEP 在測試時的效能比 PPO 顯著提高(圖 3)。雖然只是粗略的逼近,但 LEEP 提供的一些跡象表明,嘗試在 epistemic POMDP 中學習策略可以成為開發更通用 RL 演算法的有效途徑。

圖 5:LEEP,一種基於認知 POMDP 目標的演算法,在四個 Procgen 任務中比 PPO 具有更好的泛化效能。

在監督學習中,優化訓練集效能可以提高模型泛化能力,因此,很容易假設 RL 中的泛化可以用同樣的方式解決,但這顯然是錯誤的。RL 中有限的訓練資料將隱式的部分可觀察性引入到一個完全可觀察的問題中。這種隱式的部分可觀察性,正如認知 POMDP 形式化的那樣,意味著在 RL 中很好地泛化需要自適應或隨機行為,這是 POMDP 問題的關鍵。

最終,這凸顯了深度 RL 演算法泛化的不相容性:由於訓練資料有限,基於 MDP 的 RL 目標與最終決定泛化效能的隱式 POMDP 目標不一致。

原文連結:bair.berkeley.edu/blog/