分析 AlphaGo 演算法原理的本質

阿新 • • 發佈：2018-11-10

和兒子討論演算法，兒子建議我參考一下AlphaGo的原理，發給我參考資料看了一下，感覺很受啟發。

一、AlphaGo的數學模型

1.1 圍棋問題的本質

圍棋問題本質上是一個數據分類問題。
圍棋問題可以這樣描述：給你一個圍棋的佈局，求出最佳落子位置。換句話講：

輸入是圍棋佈局，可以抽象為19x19階矩陣，元素取值-1、0、1。
輸出是一個位置，共有19x19=361種可能。

容易聯想到，實質上這是把19x19尺寸影象分成361類的問題。

1.2 影象分類的 CNN 模型

這裡給出影象分類的CNN網路模型示意圖：

圖1. 用於影象分類的CNN模型示意圖

圖中輸入一幅圖片，輸出一個四維向量，給出了輸入影象是 dog、cat、boat、bird 四類目標的概率分佈。

1.3 圍棋的 CNN 模型

圍棋的 CNN 模型和影象分類模型本質上是一樣的，輸入是19x19解析度的棋局“影象”，輸出是361維概率分佈向量。其中，概率最大的那個位置就是最佳落子位置。

1.4 聰明的谷歌研究團隊

圍棋問題抽象成純粹的數學問題，是AlphaGo的核心問題。AlphaGo很聰明，把該問題抽象成了CNN網路模型，這是令人拍案叫絕的地方。

有時候不得不佩服谷歌的研究團隊，當年讀谷歌的FaceNet那篇論文時，我都有要自殺的感覺，真的，我覺得那個三元組模型太聰明瞭，通過一個間接的方法構造損失函式，避免了對海量組合樣本的標註（其實人臉特徵提取模型也不可能人工標註訓練樣本）。當年我苦思冥想也沒找到如此巧妙的途徑，這一點對谷歌俺是心悅誠服。

深度學習技術的推廣普及，谷歌功不可沒。谷歌為人類文明進步做出巨大貢獻，是一家偉大的公司。希望我們中國的企業也能把目光放遠一些，肩負起解放全人類的光榮使命。

二、模型和訓練

2.1 向人類學習

人類積累了大量的棋譜，展示了各種棋局如何落子的示例。這些可以作為訓練樣本。谷歌從圍棋對戰平臺KGS上獲得了人類選手的圍棋對弈棋譜，對於每一種棋局，都會有一個人類進行的落子，這也就是一個天然訓練樣本，如此可以得到3000萬個訓練樣本。

谷歌的實驗結果表明，這個方法不夠好。估計有兩原因：

數量太少：數量不足以覆蓋所有情況。
質量太差：人類的經驗未必正確，跟臭棋簍子學下棋，肯定學不好。

2.2 MCTS 蒙特卡洛搜尋樹

MCTS這個想法很奇妙，不需要任何人類的棋譜。

2.2.1 決策樹

我們可以這樣設想，圍棋的所有可能的局面和落子方法如果全部展開，是一個無比龐大的決策樹。每個節點對應一個棋局，每個棋局都有一個最佳落子推薦位置。這樣圍棋問題就搞定了。

由於這棵決策樹過於龐大，我們可以構造其一部分，用這一部分做訓練樣本，然後其餘的部分，通過訓練卷積神經網路模型來進行預測計算。

2.2.2 MCTS 決策樹

MCTS開始構造搜尋樹之前，首先假定任何棋局在任何位置落子，取勝的機會都是相同的。也就是說，當出現一個新的棋局時，MCTS會為該棋局構造一個初始的19x19階落子決策權重矩陣，每個落子位置的權重被初始化成相同的值。

圖2. 棋局和決策權重矩陣示意圖

從空白棋局開始，隨機落子，直至對弈結束。把對弈過程中出現的棋局放入決策樹，各個棋局根據最終勝負調整其決策矩陣權重。接下來下第二盤時，我們就有了一個稍微有一點點經驗的的落子參考權重指導。如此下去，對弈10萬盤，我們將構造出一個有一定”智力“的決策樹。

2.2.3 MCTS 特點分析

MCTS有如下幾個特點：

MCTS 不僅可以用於構建訓練樣本，而且在對弈過程中，也可以根據對手落子情況繼續”線上“模擬。可以想象，進行得了大量隨機模擬後，可以得出最佳的走起方法。這種方法谷歌論文中稱為Rollout。
MCTS 可以平行計算，可以通過增加計算資源數量提升計算速度。

2.3 人類經驗 + MCTS，增強演算法能力

MCTS的棋局落子權重矩陣，可以根據人類的棋譜初始化，可以提高訓練速度。實驗表明，在開局前面的20步人類的經驗是可以起到有效作用的。

三、強化學習和自我對弈

接下來的故事就沒前面精彩了，但是引入了另外一項新技術——強化學習，於是乎誕生了 AlphaGo Zero。限於篇幅，強化學習和AlphaGo Zero 以後再慢慢討論吧。

分析 AlphaGo 演算法原理的本質

一、AlphaGo的數學模型

1.1 圍棋問題的本質

1.2 影象分類的 CNN 模型

1.3 圍棋的 CNN 模型

1.4 聰明的谷歌研究團隊

二、模型和訓練

2.1 向人類學習

2.2 MCTS 蒙特卡洛搜尋樹

2.2.1 決策樹

2.2.2 MCTS 決策樹

2.2.3 MCTS 特點分析

2.3 人類經驗 + MCTS，增強演算法能力

三、強化學習和自我對弈

分析 AlphaGo 演算法原理的本質

聚類分析常用演算法原理：KMeans,DBSCAN, 層次聚類

深度解讀 AlphaGo 演算法原理

OpenCV學習筆記（31）KAZE 演算法原理與原始碼分析（五）KAZE的原始碼優化及與SIFT的比較

OpenCV學習筆記（30）KAZE 演算法原理與原始碼分析（四）KAZE特徵的效能分析與比較

通俗易懂的Adaboost演算法原理分析和例項+程式碼

SURF演算法原理與原始碼分析

Adaboost演算法原理分析和例項+程式碼（簡明易懂）

機器學習系列文章：Apriori關聯規則分析演算法原理分析與程式碼實現

歸併排序演算法原理分析與程式碼實現

K最近鄰分類演算法原理及例項分析

演算法原理與分析之分治法

編譯原理(九) LR(0)文法分析法(演算法描述和C++程式碼實現)

K-means聚類演算法原理分析與實際應用案例分析（案例分析另起一篇部落格）

CAS演算法原理分析

主成分分析（pca）演算法原理

深入學習主成分分析（PCA）演算法原理及其Python實現

第五篇：樸素貝葉斯分類演算法原理分析與程式碼實現

AP聚類演算法原理分析

Spark 隨機森林演算法原理、原始碼分析及案例實戰

分析 AlphaGo 演算法原理的本質

一、AlphaGo的數學模型

1.1 圍棋問題的本質

1.2 影象分類的 CNN 模型

1.3 圍棋的 CNN 模型

1.4 聰明的谷歌研究團隊

二、模型和訓練

2.1 向人類學習

2.2 MCTS 蒙特卡洛搜尋樹

2.2.1 決策樹

2.2.2 MCTS 決策樹

2.2.3 MCTS 特點分析

2.3 人類經驗 + MCTS，增強演算法能力

三、強化學習和自我對弈

相關推薦