1. 程式人生 > 資訊 >DeepMind 打造加強版 AlphaGo:挑戰各種最強棋牌 AI,戰鬥力驚人

DeepMind 打造加強版 AlphaGo:挑戰各種最強棋牌 AI,戰鬥力驚人

12 月 9 日訊息,谷歌母公司 Alphabet 旗下頂尖 AI 實驗室 DeepMind 曾因其 AI 系統 AlphaGo 擊敗頂尖人類圍棋選手、AlphaStar 贏得星際爭霸 2 而爆紅全球。本週,它又披露新的遊戲 AI 系統。

與此前開發的遊戲系統不同,DeepMind 的 AI 新作 Player of Games 是第一個在完全資訊遊戲以及不完全資訊遊戲中都能實現強大效能的 AI 演算法。完全資訊遊戲如中國圍棋、象棋等棋盤遊戲,不完全資訊遊戲如撲克等。

這是向能夠在任意環境中學習的真正通用 AI 演算法邁出的重要一步。

Player of Game 在象棋、圍棋這兩種完全資訊遊戲和德州撲克、蘇格蘭場這兩種不完全資訊遊戲中與頂尖 AI 智慧體對戰。

從實驗結果來看,DeepMind 稱 Player of Games 在完全資訊遊戲中的表現已經達到了“人類頂級業餘選手”水平,但如果給予相同資源,該演算法的表現可能會明顯弱於 AlphaZero 等專用遊戲演算法。

在兩類不完全資訊遊戲中,Player of Games 均擊敗了最先進的 AI 智慧體。

論文連結:https://arxiv.org/ pdf / 2112.03178.pdf

深藍、AlphaGo 等 AI 系統僅擅長玩一種遊戲

計算機程式挑戰人類遊戲選手由來已久。

20 世紀 50 年代,IBM 科學家亞瑟・塞繆爾(Arthur L. Samuel)開發了一個跳棋程式,通過自對弈來持續改進其功能,這項研究給很多人帶來啟發,並普及了“機器學習”這個術語。

此後遊戲 AI 系統一路發展。1992 年,IBM 開發的 TD-Gammon 通過自對弈在西洋雙陸棋中實現大師級水平;1997 年,IBM 深藍 DeepBlue 在國際象棋競賽中戰勝當時的世界棋王卡斯帕羅夫;2016 年,DeepMind 研發的 AI 系統 AlphaGo 在圍棋比賽中擊敗世界圍棋冠軍李世石……

▲ IBM 深藍系統 vs 世界棋王卡斯帕羅夫

這些 AI 系統有一個共同之處,都是專注於一款遊戲。比如塞繆爾的程式、AlphaGo 不會下國際象棋,IBM 的深藍也不會下圍棋。

隨後,AlphaGo 的繼任者 AlphaZero 做到了舉一反三。它證明了通過簡化 AlphaGo 的方法,用最少的人類知識,一個單一的演算法可以掌握三種不同的完全資訊遊戲。不過 AlphaZero 還是不會玩撲克,也不清楚能否玩好不完全資訊遊戲。

實現超級撲克 AI 的方法有很大的不同,撲克遊戲依賴於博弈論的推理,來保證個人資訊的有效隱藏。其他許多大型遊戲 AI 的訓練都受到了博弈論推理和搜尋的啟發,包括 Hanabi 紙牌遊戲 AI、The Resistance 棋盤遊戲 AI、Bridge 橋牌遊戲 AI、AlphaStar 星際爭霸 II 遊戲 AI 等。

▲ 2019 年 1 月,AlphaStar 對戰星際爭霸 II 職業選手

這裡的每個進展仍然是基於一款遊戲,並使用了一些特定領域的知識和結構來實現強大的效能。

DeepMind 研發的 AlphaZero 等系統擅長國際象棋等完全資訊遊戲,而加拿大阿爾伯特大學研發的 DeepStack、卡耐基梅隆大學研發的 Libratus 等演算法在撲克等不完全資訊遊戲中表現出色。

對此,DeepMind 研發了一種新的演算法 Player of Games(PoG),它使用了較少的領域知識,通過用自對弈(self-play)、搜尋和博弈論推理來實現強大的效能

更通用的演算法 PoG:棋盤、撲克遊戲都擅長

無論是解決交通擁堵問題的道路規劃,還是合同談判、與顧客溝通等互動任務,都要考慮和平衡人們的偏好,這與遊戲策略非常相似。AI 系統可能通過協調、合作和群體或組織之間的互動而獲益。像 Player of Games 這樣的系統,能推斷其他人的目標和動機,使其與他人成功合作。

要玩好完全的資訊遊戲,需要相當多的預見性和計劃。玩家必須處理他們在棋盤上看到的東西,並決定他們的對手可能會做什麼,同時努力實現最終的勝利目標。不完全資訊遊戲則要求玩家考慮隱藏的資訊,並思考下一步應該如何行動才能獲勝,包括可能的虛張聲勢或組隊對抗對手。

DeepMind 稱,Player of Games 是首個“通用且健全的搜尋演算法”,在完全和不完全的資訊遊戲中都實現了強大的效能。

Player of Games(PoG)主要由兩部分組成:

  • 一種新的生長樹反事實遺憾最小化(GT-CFR)

  • 一種通過遊戲結果和遞迴子搜尋來訓練價值-策略網路的合理自對弈。

▲ Player of Games 訓練過程:Actor 通過自對弈收集資料,Trainer 在分散式網路上單獨執行

在完全資訊遊戲中,AlphaZero 比 Player of Games 更強大,但在不完全的資訊遊戲中,AlphaZero 就沒那麼遊刃有餘了。

Player of Games 有很強通用性,不過不是什麼遊戲都能玩。參與研究的 DeepMind 高階研究科學家馬丁・施密德(Martin Schmid)說,AI 系統需考慮每個玩家在遊戲情境中的所有可能視角。

雖然在完全資訊遊戲中只有一個視角,但在不完全資訊遊戲中可能有許多這樣的視角,比如在撲克遊戲中,視角大約有 2000 個。

此外,與 DeepMind 繼 AlphaZero 之後研發的更高階 MuZero 演算法不同,Player of Games 也需要了解遊戲規則,而 MuZero 無需被告知規則即可飛速掌握完全資訊遊戲的規則。

在其研究中,DeepMind 評估了 Player of Games 使用谷歌 TPUv4 加速晶片組進行訓練,在國際象棋、圍棋、德州撲克和策略推理桌遊《蘇格蘭場》(Scotland Yard)上的表現。

▲ 蘇格蘭場的抽象圖,Player of Games 能夠持續獲勝

在圍棋比賽中,AlphaZero 和 Player of Games 進行了 200 場比賽,各執黑棋 100 次、白棋 100 次。在國際象棋比賽中,DeepMind 讓 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等頂級系統進行了對決。

▲ 不同智慧體的相對 Elo 表,每個智慧體與其他智慧體進行 200 場比賽

在國際象棋和圍棋中,Player of Games 被證明在部分配置中比 Stockfish 和 Pachi 更強,它在與最強的 AlphaZero 的比賽中贏得了 0.5% 的勝利

儘管在與 AlphaZero 的比賽中慘敗,但 DeepMind 相信 Player of Games 的表現已經達到了“人類頂級業餘選手”的水平,甚至可能達到了專業水平。

Player of Games 在德州撲克比賽中與公開可用的 Slumbot 對戰。該演算法還與 Joseph Antonius Maria Nijssen 開發的 PimBot 進行了蘇格蘭場的比賽。

▲ 不同智慧體在德州撲克、蘇格蘭場遊戲中的比賽結果

結果顯示,Player of Games 是一個更好的德州撲克和蘇格蘭場玩家。與 Slumbot 對戰時,該演算法平均每 hand 贏得 700 萬個大盲注(mbb / hand),mbb / hand 是每 1000 hand 贏得大盲注的平均數量。

同時在蘇格蘭場,DeepMind 稱,儘管 PimBot 有更多機會搜尋獲勝的招數,但 Player of Games 還是“顯著”擊敗了它。

研究關鍵挑戰:訓練成本太高

施密德相信 Player of Games 是向真正通用的遊戲系統邁出的一大步。

實驗的總體趨勢是,隨著計算資源增加,Player of Games 演算法以保證產生更好的最小化-最優策略的逼近,施密德預計這種方法在可預見的未來將擴大規模。

“人們會認為,受益於 AlphaZero 的應用程式可能也會受益於遊戲玩家。”他談道,“讓這些演算法更加通用是一項令人興奮的研究。”

當然,傾向於大量計算的方法會讓擁有較少資源的初創公司、學術機構等組織處於劣勢。在語言領域尤其如此,像 OpenAI 的 GPT-3 這樣的大型模型已取得領先效能,但其通常需要數百萬美元的資源需求,這遠超大多數研究小組的預算。

即便是在 DeepMind 這樣財力雄厚的公司,成本有時也會超過人們所能接受的水平。

對於 AlphaStar,公司的研究人員有意沒有嘗試多種構建關鍵元件的方法,因為高管們認為訓練成本太高。根據 DeepMind 披露的業績檔案,它在去年才首次盈利,年收入達到 8.26 億英鎊(摺合約 69 億人民幣),獲得 4380 萬英鎊(摺合約 3.67 億人民幣)的利潤。從 2016 年~2019 年,DeepMind 共計虧損 13.55 億英鎊(摺合約 113 億人民幣)。

據估計,AlphaZero 的訓練成本高達數千萬美元。DeepMind 沒有透露 Player of Games 的研究預算,但考慮到每個遊戲的訓練步驟從數十萬到數百萬不等,這個預算不太可能低。

結語:遊戲 AI 正助力突破認知及推理挑戰

目前遊戲 AI 還缺乏明顯的商業應用,而 DeepMind 的一貫理念是借其去探索突破認知和推理能力所面臨的獨特挑戰。近幾十年來,遊戲催生了自主學習的 AI,這為計算機視覺、自動駕駛汽車和自然語言處理提供了動力。

隨著研究從遊戲轉向其他更商業化的領域,如應用推薦、資料中心冷卻優化、天氣預報、材料建模、數學、醫療保健和原子能計算等等,遊戲 AI 研究對搜尋、學習和博弈推理的價值愈發凸顯。

“一個有趣的問題是,這種水平的遊戲是否可以用較少的計算資源實現。”這個在 Player of Games 論文最後中被提及的問題,還沒有明確的答案。