【2018展望Top10】GAN應用落地，NLP急需突破

阿新 • • 發佈：2019-01-11

人工智慧最近三年發展如火如荼，學術界、工業界、投資界各方一起發力，硬體、演算法與資料共同發展，不僅僅是大型網際網路公司，包括大量創業公司以及傳統行業的公司都開始涉足人工智慧。

2017年人工智慧行業延續了2016年蓬勃發展的勢頭，那麼在過去的一年裡AI行業從技術發展角度有哪些重要進展？未來又有哪些發展趨勢？本文從大家比較關注的若干領域作為代表，來歸納AI領域一些方向的重要技術進展。

從AlphaGo Zero到Alpha Zero：邁向通用人工智慧的關鍵一步

DeepMind攜深度增強學習利器總是能夠給人帶來震撼性的技術創新，2016年橫空出世的AlphaGo徹底粉碎了普遍存在的“圍棋領域機器無法戰敗人類最強手”的執念，但是畢竟李世石還是贏了一局，不少人對於人類翻盤大逆轉還是抱有希望，緊接著Master通過60連勝諸多頂尖圍棋高手徹底澆滅了這種期待。

2017年AlphaGo Zero作為AlphaGo二代做了進一步的技術升級，把AlphaGo一代虐得體無完膚，這時候人類已經沒有資格上場對局了。2017年底AlphaGo的棋類遊戲通用版本Alpha Zero問世，不僅僅圍棋，對於國際象棋、日本將棋等其他棋類遊戲，Alpha Zero也以壓倒性優勢戰勝包括AlphaGo Zero在內的目前最強的AI程式。

692d5be9d210c7bc9084c3e776150393e2ce5c01

AlphaGo Zero從技術手段上和AlphaGo相比並未有本質上的改進，主體仍然是MCST蒙特卡洛搜尋樹加神經網路的結構以及深度增強學習訓練方法，但是技術實現上簡單優雅很多（參考圖1）。

主要的改動包含兩處：一處是將AlphaGo的兩個預測網路（策略網路和價值網路）合併成一個網路，但是同時產生兩類所需的輸出；第二處是網路結構從CNN結構升級為ResNet。

雖說如此，AlphaGo Zero給人帶來的觸動和啟發絲毫不比AlphaGo少，主要原因是AlphaGo Zero完全放棄了從人類棋局來進行下棋經驗的學習，直接從一張白紙開始通過自我對弈的方式進行學習，並僅僅通過三天的自我學習便獲得了遠超人類千年積累的圍棋經驗。

這引發了一個之前一般人很期待但是同時又認為很難完成的問題：機器能夠不依賴有監督方式的訓練資料或者極少的訓練資料自我進化與學習嗎？如果真的能夠做到這一點，那麼是否意味著機器會快速進化並淘汰人類？

第二個問題甚至會引起部分人的恐慌。但是其實這個問題本身問的就有問題，因為它做了一個錯誤的假設：AlphaGo Zero是不需要訓練資料的。首先，AlphaGo Zero確實做到了通過自我對弈的方式進行學習，但是仍然需要大量訓練資料，無非這些訓練資料是通過自我對弈來產生的。

而且更根本的一點是應該意識到：對於AlphaGo Zero來說，其本質其實還是MCST蒙特卡洛樹搜尋。圍棋之所以看著難度大難以克服，主要是搜尋空間實在太大，單純靠暴力搜尋完全不可行。如果我們假設現在有個機器無限強大，能夠快速遍歷所有搜尋空間，那麼其實單純使用MCST樹搜尋，不依靠機器學習，機器也能達到完美的博弈狀態

AlphaGo Zero通過自我對弈以及深度增強學習主要達到了能夠更好地評估棋盤狀態和落子質量，優先選擇走那些贏面大的博弈路徑，這樣能夠捨棄大量的劣質路徑，從而極大減少了需要搜尋的空間，自我進化主要體現在評估棋面狀態越來越準。

而之所以能夠通過自我對弈產生大量訓練資料，是因為下棋是個規則定義很清晰的任務，到了一定狀態就能夠贏或者輸，無非這種最終的贏或者輸來得晚一些，不是每一步落子就能看到的，現實生活中的任務是很難達到這一點的，這是為何很多工仍然需要人類提供大量訓練資料的原因。如果從這個角度考慮，就不會錯誤地產生以上的疑慮。

Alpha Zero相對AlphaGo Zero則更進一步，將只能讓機器下圍棋拓展到能夠進行規則定義清晰的更多棋類問題，使得這種技術往通用人工智慧的路上邁出了重要一步。

其技術手段和AlphaGo Zero基本是相同的，只是去除掉所有跟圍棋有關的一些處理措施和技術手段，只告訴機器遊戲規則是什麼，然後使用MCST樹搜尋+深度神經網路並結合深度增強學習自我對弈的統一技術方案和訓練手段解決一切棋類問題。

從AlphaGo的一步步進化策略可以看出，DeepMind正在考慮這套擴充套件技術方案的通用性，使得它能夠使用一套技術解決更多問題，尤其是那些非遊戲類的真實生活中有現實價值的問題。

同時，AlphaGo系列技術也向機器學習從業人員展示了深度增強學習的強大威力，並進一步推動了相關的技術進步，目前也可以看到深度增強學習在更多領域應用的例項。

GAN：前景廣闊，理論與應用極速發展中

GAN，全稱為Generative Adversarial Nets，直譯為“生成式對抗網路”。GAN作為生成模型的代表，自2014年被Ian Goodfellow提出後引起了業界的廣泛關注並不斷湧現出新的改進模型，深度學習泰斗之一的Yann LeCun高度評價GAN是機器學習界近十年來最有意思的想法。

Ian Goodfellow提出的最初的GAN儘管從理論上證明了生成器和判別器在多輪對抗學習後能夠達到均衡態，使得生成器可以產生理想的影象結果。但是實際上，GAN始終存在訓練難、穩定性差以及模型崩塌（Model Collapse）等問題。產生這種不匹配的根本原因其實還是對GAN背後產生作用的理論機制沒有探索清楚。

過去的一年在如何增加GAN訓練的穩定性及解決模型崩塌方面有了可喜的進展。GAN本質上是通過生成器和判別器進行對抗訓練，逼迫生成器在不知曉某個資料集合真實分佈Pdata的情形下，通過不斷調整生成資料的分佈Pθ去擬合逼近這個真實資料分佈Pdata，所以計算當前訓練過程中兩個分佈Pdata和Pθ的距離度量標準就很關鍵。

原文連結

【2018展望Top10】GAN應用落地，NLP急需突破

【2018展望Top10】GAN應用落地，NLP急需突破

【2018.10.10】簡單結構體二叉樹及其應用

【劉文彬】EOS商業落地利器：多簽名操作與應用

【2017-06-20】Linux應用開發工程師C/C++面試問題之一：Linux多線程程序的同步問題

【2017-07-01】Linux應用開發工程師面試問題記錄之二：關於結構體的大小及內存對齊問題

【2018-01-19】Sql Server-觸發器

【2018-01-19】Sql Server-視圖，事務

【2018-01-23】HTML-iframe框架

【2018-01-23】HTML-插入視頻、音樂，簡單滾動效果

【2018-01-28】HTML-css樣式表分類、選擇器

【2018-01-28】HTML-常用樣式屬性

【2018-01-28】HTML-布局

【2018.3.2】實驗二

【2018.3.4】實驗修正

【2018.03.13】Linux基本指令+Vim編輯器+重定向+正則表達式

【2018/04/02】學習小記

【2018-07-05】關於ajax的隨筆

【2018.07.29】（搜索）學習DFS算法小記

【2018-2019-1】20165223-20165218 實驗二韌體程式設計

【2018.11.3】阿伏伽德羅 / 聯絡 / 歐幾里得距離

【2018展望Top10】GAN應用落地，NLP急需突破

相關推薦