AlphaGo Zero到底是怎麼學習成為了無敵的存在?

阿新 • • 發佈：2018-12-03

人工智慧棋手 AlphaGo 先後戰勝了兩位頂尖圍棋高手李世乭和柯潔。在這場猛烈風暴席捲了世界後，AlphaGo 宣佈不再和人下棋。但它的製造者並沒有因此停下腳步，AlphaGo 還在成長，今天 Deepmind 又在《自然》期刊上發表了關於 AlphaGo 的新論文。這篇論文中的 AlphaGo 是全新的、它不是戰勝柯潔的那個最強的 Master，但卻是它的孿生兄弟。它的名字叫 AlphaGo Zero，是AlphaGo 的最新版本。和以前的 AlphaGo 相比，它：
從零開始學習，不需要任何人類的經驗
使用更少的算力得到了更好的結果
發現了新的圍棋定式
將策略網路和值網絡合並
使用了深度殘差網路
白板理論（Tabula rasa）
哲學上有種觀點認為，嬰兒生下來是白板一塊，通過不斷訓練、成長獲得知識和智力。作為 AI 領域的先驅，圖靈使用了這個想法。在提出了著名的「圖靈測試」的論文中，他從嬰兒是一塊白板出發，認為只要能用機器製造一個類似小孩的 AI，然後加以訓練，就能得到一個近似成人智力，甚至超越人類智力的 AI。現代科學瞭解到的事實並不是這樣，嬰兒生下來就有先天的一些能力，他們偏愛高熱量的食物，餓了就會哭鬧希望得到注意。這是 DNA 在億萬年的演化中學來的。
AlphaGo Zero到底是怎麼學習成為了無敵的存在?

監督和無監督學習
計算器則完全不同，它沒有億萬年的演化，因此也沒有這些先天的知識，是真正的「白板一塊」。監督學習和無監督學習（Supervised & Unsupervised Learning）是鏡子的兩面，兩者都想解決同一個問題——如何讓機器從零開始獲得智慧？監督學習認為人要把自己的經驗教給機器。拿分辨貓貓和狗狗的 AI 來說，你需要準備幾千張照片，然後手把手教機器——哪張照片是貓，哪張照片是狗。機器會從中學習到分辨貓狗的細節，從毛髮到眼睛到耳朵，然後舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗。而無監督學習認為機器要去自己摸索，自己發現規律。人的經驗或許能幫助機器掌握智慧，但或許人的經驗是有缺陷的，不如讓機器自己發現新的，更好的規律。人的經驗就放一邊吧。
AlphaGo Zero到底是怎麼學習成為了無敵的存在?

從無知到無敵
就像這篇新論文中講述的那樣。AlphaGo Zero 是無監督學習的產物，而它的雙胞胎兄弟 Master 則用了監督學習的方法。在訓練了 72 小時後 AlphaGo Zero 就能打敗戰勝李世乭的 AlphaGo Lee，相比較 AlphaGo Lee 訓練了幾個月。而 40 天后，它能以 89:11 的成積，將戰勝了所有人類高手的 Master 甩在後面。圖靈的白板假設雖然無法用在人身上，但是 AlphaGo Zero 證明了，一個白板 AI 能夠被訓練成超越人類的圍棋高手。參考重要資訊來源於：勝博發災民祈福 http://chiayuan.org.tw/

強化學習
強化學習（Reinforcement Learning）是一種模仿人類學習方式的模型，它的基本方法是：要是機器得到了好的結果就能得到獎勵，要是得到差的結果就得到懲罰。AlphaGo Zero 並沒有像之前的兄弟姐妹一樣被教育了人類的圍棋知識。它只是和不同版本的自己下棋，然後用勝者的思路來訓練新的版本，如此不斷重複。通過這一方法，AlphaGo Zero 完全自己摸索出了開局，收官，定式等以前人類已知的圍棋知識，也摸索出了新的定勢。
AlphaGo Zero到底是怎麼學習成為了無敵的存在?

演算法和效能
如何高效合理得利用計算資源？這是演算法要解決的一個重要問題。AlphaGo Lee 使用了 48 個 TPU，更早版本的 AlphaGo Fan 使用了 176 個 GPU，而 Master 和 AlphaGo Zero 僅僅用了 4 個 TPU，也就是說一臺計算機足夠！AlphaGo Zero 在 72小時內就能超越 AlphaGo Lee 也表明，優秀的演算法不僅僅能降低能耗，也能極大提高效率。另外這也說明，圍棋問題的複雜度並不需要動用大規模的計算能力，那只是浪費。
AlphaGo Zero到底是怎麼學習成為了無敵的存在?

Deepmind 的歷程
這不是 Deepmind 第一次在《自然》期刊上投稿，他們還發表過《利用深度神經網路和搜尋樹的圍棋 AI》和《AI 計算機遊戲大師》等幾篇論文。我們可以從中一窺 Deepmind 的思路，他們尋找人類還沒有理解原理的遊戲，遊戲比起現實世界的問題要簡單很多。然後他們選擇了兩條路，一條道路是優化演算法，另外一條道路是讓機器不受人類先入為主經驗的影響。這兩條路交匯的終點，是那個超人的 AI。
AlphaGo Zero到底是怎麼學習成為了無敵的存在?

結語
這是 AlphaGo 的終曲，也是一個全新的開始，相關技術將被用於造福人類，幫助科學家認識蛋白質折迭，製造出治療疑難雜症的藥物，開發新材料，以製造以出更好的產品。

AlphaGo Zero到底是怎麼學習成為了無敵的存在?

AlphaGo Zero到底是怎麼學習成為了無敵的存在?

強化學習(十九) AlphaGo Zero強化學習原理

深度學習入門：AlphaGo Zero蒙特卡洛樹搜尋

【七月線上】強化學習 [一舉解開AlphaGo Zero的百勝奧祕] 完整版附課堂資料

Hibernate學習之一級緩存

Linux學習之了解計算機硬件知識

iOS學習必須了解的七大手勢

#51CTO學院四周年#讓學習成為習慣

【C#學習筆記】保存文件

OPENCV學習筆記3_Mat 保存

在AlphaGo Zero熱潮下的<AI思維+設計思維>

java之JVM學習--簡單了解GC算法

開始學習gradle了！

跟著Alex老師學習抄了一遍shopping_list的購物程序

大數據學習之一——了解簡單概念

hibernate學習六 Hibernate緩存

MySQL基礎入門學習【14】存儲引擎

Scrapy學習-7-數據存儲至數據庫

MySQL學習筆記：刪除存儲過程和函數

hibernate框架學習之一級緩存

AlphaGo Zero到底是怎麼學習成為了無敵的存在?

相關推薦