教你教電腦下圈叉棋

阿新 • • 發佈：2018-12-15

原理

主要是看了這一篇Get a taste of reinforcement learning — implement a tic tac toe agent，裡面作者提出了大概的訓練思路，我基本沒有參照他的具體實現，但是思路肯定是差不多的。而且訓練結果是我幾乎下不過這個AI，比這篇的結果要好很多（不過這種明顯演算法可以解決的問題用AI也沒什麼意思）。

實現

核心在於訓練一個模型 $M$ ，這個模型用來學習當前的棋局 $G$ 時，我們的當前玩家 $p$ 該怎麼處理。強化學習不需要訓練用例，而是我們自己產生訓練用例。這是一個有點迴圈依賴的問題。因為模型顯然自己不知道該往什麼方向發展，通常的機器學習訓練中，我們的依靠外在的資料讓模型去調整自己的引數。所幸，我們的 $G$

G

服從一套遊戲規則，這個遊戲規則可以幫助我們產生（越來越好的）訓練用例。

訓練過程

我們的訓練流程是這樣的。圈圈用符號 $O$ ，叉叉用符號 $X$ 表示。先手圈圈的模型稱為 $M_O$ ，後手叉叉的模型稱為 $M_X$ ，他們需要學習一個對映，對映到當前獎勵 $E_p$ 。 $E_p$ 代表模型對當前各種走法（圈叉棋中至多9種）的價值的判斷。即
$M_O = G\mapsto E_O$
$M_X = G\mapsto E_X$

初始狀態時我們隨機初始化 $M_O$ 和 $M_X$ 。
然後我們利用當前引數的 $M_O$ ， $M_X$ 在盤面上進行搏鬥，即產生（一個batch的）訓練用例。為了產生更廣泛的訓練樣例，我們採用演算法 $A$ 來產生隨機的訓練用例(之後定義演算法 $A$ )。
利用訓練用例調整 $M_O$ 和 $M_X$ 的引數，返回 2。

演算法 $A$

隨機產生 $b$ 盤合法棋局 $S_g$ ，這些棋局滿足遊戲規則，而且當前不存在勝者。
對於每個棋局 $s\in S_g$ ，如果是輪到選手 $O$ ，則認為 $s \in S_O$ ，否則 $s \in S_X$ 。
對於每個棋局 $s\in S_g$ ，按照遊戲規則產生用例。對當前 $s$ 中每個空格，填入當前選手的符號。之後按照當前選手，通過 $M_O$ 或 $M_X$ 預測獎勵，選擇獎勵最大的位置進行走子（我們會解決當前模型預測獎勵最大的位置不是空格的問題*）。直到當前棋局 $s$ 分出勝負（或平局）。對每個空格處理完後，我們可以對當前棋局 $s$ 按照如下規則進行估算獎勵 $E_{p,s}$ ，注意這裡的 $p$ 是棋局 $s$ 的當前玩家， $E_{p,s}$ 可以當作一個9元向量， $E_{p,s}^i$ 是上文所說的當前走位置 $i$ 的獎勵，假設我們把棋局 $s$ 編號到 $k\in[0,9)$ 的整數。：
- 如果 $s^i$ 已經被佔了，那麼 $E_{p,s}^i$ 定義為 0。
- 如果 $s^i$ 在上述過程第一步"填入當前選手的符號"後，經過 $step$ 步勝利了，定義 $E_{p,s}^i = V(step)$ ，這裡的 $V$ 是我們自己定義的函式，它可以是常函式 lambda V : 1 也可以是某個關於 step 的減函式，來促使我們的模型儘早勝利。我們可以定義最優的 $E_{p,s}^i = 1$ 。
- 如果 2 中，經過 $step$ 步後平局或者沒有勝利，定義 $E_{p,s}^i = F(step)$ 。這個 F 也可以自己來定義。根據我的經驗，F是 $step$ 的增函式會促使模型學會堵子。
如此一來我們就有了分別面向模型 $M_O$ 和 $M_X$ 的訓練集 $T_O$ 和 $T_X$ 。
$T_O = \{ (s, E_{O, s})|s\in S_O \}$
$T_X = \{ (s, E_{X, s})|s\in S_X \}$

理解

模型訓練的核心顯然在我們為什麼用演算法 $A$ 能產生對 $M_O$ 和 $M_X$ 有優化作用的訓練用例集 $T_O$ 和 $T_X$ 。
正如訓練過程(1)所示，一開始 $M_O$ 和 $M_X$ 的引數是隨機的，所以我們左右互搏產生的測試用例實際是質量很低的，因為雙方並沒有建立起如實反映 $G\mapsto E_P$ 的對映 $M_P$ 。但是我們有強制的一步演算法 $A$ 的(3)，我們對每個空格都進行了試驗，因此至少獲得了一部分 $S'\subset S_g$ 的真實 $E_{p,s}$ 值，例如
$s = \begin{matrix} O & O & \_ \\ X & X & \_ \\ \_ & \_ & \_ \end{matrix} \in S'$

當前選手是 $O$ ，那麼。之後我們對 $E_{o,s}^2 = V(1)$ (假設位置編號從左到右從上到下，從0開始。)便得到了可靠的目標值。然後我們在訓練過程 3. 中利用優化演算法，便使得我們的模型對 $S'$ 有了更加準確的對映。如此而來，由於 $M_p$ 變得更加準確了，下一輪便能得到更加高質量的訓練用例。例如當
$s' = \begin{matrix} O & O &am$

教你教電腦下圈叉棋

原理

實現

訓練過程

演算法 $A$

理解

教你教電腦下圈叉棋

教你win10電腦中用微星無線網卡驅動來快速修復網絡的使用教程

教你如何電腦被盜還能找回

Nginx原理介紹以及教你Windows系統下快速上手(附常見問題解決方法)

圖文來教你在eclipse下用gradle 來打包Android

手把手教你配置mac下最牛X的命令列工具：iTerm2+oh-my-zsh（2018年）

手把手教你在STM32下搭建屬於自己的第一個應用程式

學長教你買電腦（筆記本篇）

手把手教你在Windows10下安裝Tensorflow1.2

一步一步教你在Windows下安裝Scrapy

手把手教你在ubuntu下建立桌面快捷方式

只需一步教你解決Win10下Android Studio terminal無法使用的問題

教你會dos下的檢視埠號

手把手教你安裝windows下的git伺服器(copssh+msysgit)並且聚合vs

手把手教你用電腦做伺服器建網站並讓外網訪問

手把手教你在STM32下移植UCGUI（基於正點原子的MINI開發板）

手把手教你：win7下安裝SQL Server2005開發版步驟

教你在 Linux 下時光穿梭

手把手教你在win10下搭建pytorch GPU環境（Anaconda+Pycharm）

教你選購筆記本電腦

教你教電腦下圈叉棋

原理

實現

訓練過程

演算法AAA

理解

相關推薦

演算法 $A$