模仿並超越，KL 正則化搜尋讓 AI 下圍棋更像人類，Meta&CMU 出品

阿新 • • 發佈：2021-12-19

如果非要問 AlphaGo 有什麼缺點，那就是下棋不像人類。和 AlphaGo 對弈過的頂級棋手都有這種感受，他們覺得 AI 落子經常讓人捉摸不透。

這不僅是 AlphaGo 的問題，許多 AI 系統無法解釋，且難以學習。如果想讓 AI 與人類協作，就不得不解決這個問題。現在，來自 Meta AI 等機構的研究者們打造出一個能戰勝人類頂級棋手、且更容易覆盤棋譜的 AI。

他們用人類棋譜訓練 AI 模仿，並讓後者超越了人類。

上圖分別展示了該方法在國際象棋（左）、圍棋（右）的表現。

縱軸為 AI 與原始模型對弈的勝率，橫軸為 AI 預測人類落子位置的 Top-1 準確度。可以看出新的演算法（綠色）在兩方面都已經超過了 SOTA 結果（藍色）。

像人類，還能打敗人類

正所謂“魚與熊掌難以兼得”。AlphaGo 使用的自我博弈與蒙特卡洛樹搜尋（MCTS），雖然練就了無比強大的 AI，但它的下棋更像憑直覺，而非策略。如果要讓 AI 更像人類，更應當使用模仿學習（Imitative learning），但是這卻很難讓 AI 達到人類頂級棋手水準。

Meta AI 和 CMU 的研究者發現，加入了 KL 正則化搜尋後，一切都不一樣了。AI 的落子策略變得與人類棋手更加相似，這就是他們提出的新方法。

在國際象棋、圍棋和無合作的博弈遊戲中，這種方法在預測人類的準確性上達到了 SOTA 水平，同時也大大強於模仿學習策略。作者選擇了遺憾最小化演算法（regret minimization algorithms）作為模仿學習的演算法，但是非正則化遺憾最小化演算法在預測人類專家行為方面的準確性較低。

因此作者引入了新的方法，引入了與搜尋策略和人類模仿學習的錨策略之間的 KL 散度成正比的成本項。此演算法被稱為策略正則化對衝，簡稱 piKL-hedge。

piKL-hedge 的執行步驟如下：

在下圖中，piKL-Hedge（綠色）可以生成預測人類博弈的策略，其準確度與模仿學習（藍色）相同，同時效能強 1.4 倍。另一方面，在實現更高預測準確性的同時，piKL-Hedge 優於非正則化搜尋（黃色）的策略。

本文共有三位共同一作，分別是來自 Meta AI 的 Athul Paul Jacob、David Wu，以及 CMU 的 Gabriele Farina。

Athul Paul Jacob 同時也是 MIT CSAIL 的二年級博士生，從 2016 年到 2018 年，他還在 Mila 擔任訪問學生研究員，在 Yoshua Bengio 手下工作，與 Bengio 共同發表了多篇論文。

David Wu 是 Meta AI 的國際象棋和圍棋首席研究員。

Gabriele Farina 是 CMU 一名六年級博士生，曾是 2019-2020 年 Facebook 經濟學和計算獎學金的獲得者，他的研究方向是人工智慧、電腦科學、運籌學和經濟學。

另外，Gabriele Farina 還參與過著名的 CMU 德州撲克 AI 程式 Libratus 的開發。

論文地址：

https://arxiv.org/abs/2112.07544