OpenAI-2018年強化學習領域7大最新研究方向全盤點
OpenAI一直是業界進行強化學習研究與應用的前沿陣地,2018年伊始,今天就給大家盤點一下新的AI紀元之年,OpenAI火力全開,重點研究的七個問題。
⭐⭐⭐ 分散式深度強化學習中引數平均問題(Parameter Averaging)
在RL演算法中探索引數平均方案對樣本複雜度和通訊開銷帶來的影響。雖然最簡單的解決方案是在每次更新時,直接平均來自每個Worker的梯度,但也可以讓每個Worker獨立更新引數,達到一定更新次數後再提交更新,減少引數平均帶來的來通訊開銷。在RL中,這可能還有另一個好處:在任何時候,都會有Agent具有不同引數,這可能會帶來更好的探索行為。另一種可能性是像EASGD這樣的使用演算法,每個更新都將引數部分地結合在一起。
⭐⭐⭐ 通過生成模型,在不同的GAMES之間進行遷移問題
· 為11個Atari遊戲,訓練11個好的Policy。從每個遊戲的Policy中產生10,000個1000步的軌跡資料。
· 使用一個生成模型(如Transformer)去逼近其中10個遊戲產生的軌跡資料。
· 然後在第11個遊戲的軌跡資料中微調這個模型。
· 目標是量化前10場GAME資料的訓練前的幫助有多大。該模型需要多大的預訓練才能起到Positive(幫助訓練)的作用?當第11場遊戲的資料量減少10倍時,效果的大小如何變化?減少100倍又如何?
⭐⭐ 貪吃蛇專案Slitherin問題
基於Gym環境,實現和解決經典的貪食蛇遊戲的多遊戲者問題(詳見http://slither.io
· 環境:有一個相當大的環境與多個蛇;水果隨機出現,且蛇吃水果之後會成長;一條蛇在與另一條蛇,或蛇本身或牆壁相撞時死亡;當所有的蛇死亡,遊戲結束。從兩條蛇開始,並基於此不斷擴充套件。
· Agent:基於使用者選擇,RL演算法通過self_learning,自動基於環境來解決問題。需要嘗試各種方法來克服self_learning的不穩定性(類似於GAN學習中出現的不穩定)。例如,嘗試基於過去的策略(policy)分配來學習當前的策略。哪種方法效果最好?
· 檢查學到的行為:Agent是否學會追逐食物,避免其他蛇碰撞?Agent是否學會進攻,設陷阱,或與競爭的蛇相抗衡?等等問題。
⭐⭐⭐ 基於Linear Attention 的Transfomer模型問題
“Transfomer”模型中使用了基於softmax的Soft Attention機制。如果可以使用Linear Attention(可以轉換成使用Fast Weight的RNN),我們就可以得到模型用於RL中。具體而言,在複雜的Context的RL學習環境下,直接把Transfomer應用於RL是不切實際的,但是基於Fast Weight的RNN是可行的。
我們的目標是:對於任何語言建模(Language Modeling)任務;只需要訓練一個Transfomer模型,然後然後找到一種方法,使用具有不同超引數Liner-Attention Transfomer模型來獲得每個字元/字的相同位(Bits),而不用增加過多的引數。但有一點需要注意:這個方法也可以行不通。一個重要的提示:與使用softmax的注意力相比,Liner-Attention Transfomer可能需要高維度的key/value向量,這可以在不顯著增加引數數量的情況下完成。
⭐⭐⭐ 學習資料增強(Learned Data Augmentation)問題
可以使用基於資料學習得到的VAE資料來進行“學習資料增強”。首先要對輸入資料進行VAE訓練,然後將每個訓練樣本通過編碼對映到latent space,然後在latent space中新增一個簡單的(如高斯)擾動,然後解碼回觀測空間。問題是,我們可以用這種方法來提升泛化效果嗎?這種資料增強的潛在好處是它可以包括引入許多非線性變換,如視點變化和場景閃電的變化。我們能否近似標籤不變的轉換集呢?
⭐⭐⭐⭐ 強化學習(RL)中的正規化(Regularization)問題
實驗研究(和定性解釋)不同正則化方法對選擇的RL演算法的有很大的影響。如,在有監督的深度學習中,正則化對於改進優化和防止過擬合非常重要,其中非常成功的方法如Dropout,Batch Normalization和L2正則化。但是,人們還沒有從強化學習演算法(如策略梯度和Q學習)的正則化中受益。順便提一句,人們通常在RL中使用的模型要比監督式學習中使用的模型結構要的小得多,因為大型模型的效果表現更差 - 也許是因為小模型更適用於最近的研究場景。這是一個相關的,但更久遠的理論研究。
⭐⭐⭐⭐⭐ 自動求Olympiad Inequality Problems問題
Olympiad Inequality Problems很容易表達,但解決這些問題通常需要巧妙的操作。構建Olympiad Inequality Problems的資料集,編寫能解決其中很大一部分問題的程式。目前尚不清楚機器學習在這裡是否有用,但可以使用一個學習的策略來減少一些分支因素。