1. 程式人生 > >Google釋出“多巴胺”開源強化學習框架,三大特性全滿足

Google釋出“多巴胺”開源強化學習框架,三大特性全滿足

640?wx_fmt=png

編譯整理 | Just

編輯 | 阿司匹林

來源:AI科技大本營

強化學習是一種非常重要 AI 技術,它能使用獎勵(或懲罰)來驅動智慧體(agents)朝著特定目標前進,比如它訓練的 AI 系統 AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網路(DQN)的核心部分,它可以在多個 workers 之間分步學習,例如,在 Atari 2600 遊戲中實現“超人”效能。

麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。

但不用擔心,Google 近日釋出了一個替代方案:基於 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。 

Google 的博文中提到,這個基於 Tensorflow 的強化學習框架,旨在為 RL 的研究人員提供靈活性,穩定性和可重複性的研究。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯絡,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強化學習框架的釋出,谷歌還推出了一個網站(https://google.github.io/dopamine/baselines/plots.html),允許開發人員快速視覺化多個智慧體的訓練執行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進式還是激進式的想法。

以下為 Google 部落格詳細內容,AI科技大本營編譯:

▌引入靈活和可重複的強化學習研究的新框架

強化學習(RL)研究在過去幾年中取得了許多重大進展。這些進步使得智慧體可以以超人類級別的能力玩遊戲。比如 Atari 遊戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智慧體經驗,大規模的分散式訓練可以在多個 workers 之間分配學習過程,分散式方法允許智慧體模擬完整的分佈過程,而不僅僅是模擬它們期望值,以學習更完整的圖景。這種型別的進展很重要,因為出現這些進步的演算法還適用於其他領域,例如機器人技術。

通常,這種進步都來自於快速迭代設計(通常沒有明確的方向),以及顛覆既定方法的結構。然而,大多數現有的 RL 框架並沒有結合靈活性和穩定性以及使研究人員能夠有效地迭代 RL 方法,並因此探索可能沒有直接明顯益處的新研究方向。此外,從現有框架再現結果通常太耗時,這可能導致科學的再現性問題。

今天,我們推出了一個新的基於 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩定性和可重複性。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯絡,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

▌易用性

清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的程式碼(大約 15 個Python 檔案),並且有詳細記錄。這是通過專注於 Arcade 學習環境(一個成熟的,易於理解的基準)和四個基於 value 的智慧體來實現的:DQN,C51,一個精心策劃的 Rainbow 智慧體的簡化版本,以及隱式分位數網路(Implicit Quantile Network)智慧體,這已在上個月的 ICML  大會上已經發表。我們希望這種簡潔性使研究人員能夠輕鬆瞭解智慧體內部的運作狀況,並積極嘗試新的想法。

▌可重複性

我們對重複性在強化學習研究中的重要性特別敏感。為此,我們為程式碼提供完整的測試覆蓋率,這些測試也可作為其他文件形式。此外,我們的實驗框架遵循 Machado 等人給出的關於使用 Arcade 學習環境標準化經驗評估的建議。

▌基準測試 

對於新的研究人員來說,能夠根據既定方法快速對其想法進行基準測試非常重要。因此,我們為 Arcade 學習環境支援的 60 個遊戲提供四個智慧體的完整培訓資料,可用作 Python pickle 檔案(用於使用我們框架訓練的智慧體)和 JSON 資料檔案(用於與受過其他框架訓練的智慧體進行比較);我們還提供了一個網站,你可以在其中快速檢視 60 個遊戲中所有智慧體的訓練執行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓練情況,這是由 Arcade 學習環境支援的一種 Atari 2600 遊戲。

640?wx_fmt=png

在 Seaquest 上的 4 名智慧體參加了訓練。x 軸表示迭代,其中每次迭代是 100 萬個遊戲幀(4.5 小時的實時遊戲);y 軸是每場比賽獲得的平均分數。陰影區域顯示的是來自 5 次獨立執行的置信區間。

我們還提供已經訓練好的深度網路,原始統計日誌以及用 Tensorboard 繪圖的 Tensorflow 事件檔案。這些都可以在網站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢於嘗試新的想法,包括漸進式和激進式的想法。我們已經積極地將它用於我們的研究,並發現它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社群做些貢獻。

GitHub 連結:

https://github.com/google/dopamine/tree/master/docs#downloads

參考連結:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

未來智慧實驗室是人工智慧學家與科學院相關機構聯合成立的人工智慧,網際網路和腦科學交叉研究機構。

未來智慧實驗室的主要工作包括:建立AI智慧系統智商評測體系,開展世界人工智慧智商評測;開展網際網路(城市)雲腦研究計劃,構建網際網路(城市)雲腦技術和企業圖譜,為提升企業,行業與城市的智慧水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智慧實驗室線上平臺。掃描以下二維碼或點選本文左下角“閱讀原文”

640?wx_fmt=jpeg