AlphaGo Zero到底是怎麼學習成為了無敵的存在?
人工智慧棋手 AlphaGo 先後戰勝了兩位頂尖圍棋高手李世乭和柯潔。在這場猛烈風暴席捲了世界後,AlphaGo 宣佈不再和人下棋。但它的製造者並沒有因此停下腳步,AlphaGo 還在成長,今天 Deepmind 又在《自然》期刊上發表了關於 AlphaGo 的新論文。這篇論文中的 AlphaGo 是全新的、它不是戰勝柯潔的那個最強的 Master,但卻是它的孿生兄弟。它的名字叫 AlphaGo Zero,是AlphaGo 的最新版本。和以前的 AlphaGo 相比,它:
從零開始學習,不需要任何人類的經驗
使用更少的算力得到了更好的結果
發現了新的圍棋定式
將策略網路和值網絡合並
使用了深度殘差網路
白板理論(Tabula rasa)
哲學上有種觀點認為,嬰兒生下來是白板一塊,通過不斷訓練、成長獲得知識和智力。作為 AI 領域的先驅,圖靈使用了這個想法。在提出了著名的「圖靈測試」的論文中,他從嬰兒是一塊白板出發,認為只要能用機器製造一個類似小孩的 AI,然後加以訓練,就能得到一個近似成人智力,甚至超越人類智力的 AI。現代科學瞭解到的事實並不是這樣,嬰兒生下來就有先天的一些能力,他們偏愛高熱量的食物,餓了就會哭鬧希望得到注意。這是 DNA 在億萬年的演化中學來的。
監督和無監督學習
計算器則完全不同,它沒有億萬年的演化,因此也沒有這些先天的知識,是真正的「白板一塊」。監督學習和無監督學習(Supervised & Unsupervised Learning)是鏡子的兩面,兩者都想解決同一個問題——如何讓機器從零開始獲得智慧?監督學習認為人要把自己的經驗教給機器。拿分辨貓貓和狗狗的 AI 來說,你需要準備幾千張照片,然後手把手教機器——哪張照片是貓,哪張照片是狗。機器會從中學習到分辨貓狗的細節,從毛髮到眼睛到耳朵,然後舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗。而無監督學習認為機器要去自己摸索,自己發現規律。人的經驗或許能幫助機器掌握智慧,但或許人的經驗是有缺陷的,不如讓機器自己發現新的,更好的規律。人的經驗就放一邊吧。
從無知到無敵
就像這篇新論文中講述的那樣。AlphaGo Zero 是無監督學習的產物,而它的雙胞胎兄弟 Master 則用了監督學習的方法。在訓練了 72 小時後 AlphaGo Zero 就能打敗戰勝李世乭的 AlphaGo Lee,相比較 AlphaGo Lee 訓練了幾個月。而 40 天后,它能以 89:11 的成積,將戰勝了所有人類高手的 Master 甩在後面。圖靈的白板假設雖然無法用在人身上,但是 AlphaGo Zero 證明了,一個白板 AI 能夠被訓練成超越人類的圍棋高手。參考重要資訊來源於:勝博發災民祈福 http://chiayuan.org.tw/
強化學習
強化學習(Reinforcement Learning)是一種模仿人類學習方式的模型,它的基本方法是:要是機器得到了好的結果就能得到獎勵,要是得到差的結果就得到懲罰。AlphaGo Zero 並沒有像之前的兄弟姐妹一樣被教育了人類的圍棋知識。它只是和不同版本的自己下棋,然後用勝者的思路來訓練新的版本,如此不斷重複。通過這一方法,AlphaGo Zero 完全自己摸索出了開局,收官,定式等以前人類已知的圍棋知識,也摸索出了新的定勢。
演算法和效能
如何高效合理得利用計算資源?這是演算法要解決的一個重要問題。AlphaGo Lee 使用了 48 個 TPU,更早版本的 AlphaGo Fan 使用了 176 個 GPU,而 Master 和 AlphaGo Zero 僅僅用了 4 個 TPU,也就是說一臺計算機足夠!AlphaGo Zero 在 72小時內就能超越 AlphaGo Lee 也表明,優秀的演算法不僅僅能降低能耗,也能極大提高效率。另外這也說明,圍棋問題的複雜度並不需要動用大規模的計算能力,那只是浪費。
Deepmind 的歷程
這不是 Deepmind 第一次在《自然》期刊上投稿,他們還發表過《利用深度神經網路和搜尋樹的圍棋 AI》和《AI 計算機遊戲大師》等幾篇論文。我們可以從中一窺 Deepmind 的思路,他們尋找人類還沒有理解原理的遊戲,遊戲比起現實世界的問題要簡單很多。然後他們選擇了兩條路,一條道路是優化演算法,另外一條道路是讓機器不受人類先入為主經驗的影響。這兩條路交匯的終點,是那個超人的 AI。
結語
這是 AlphaGo 的終曲,也是一個全新的開始,相關技術將被用於造福人類,幫助科學家認識蛋白質折迭,製造出治療疑難雜症的藥物,開發新材料,以製造以出更好的產品。