1. 程式人生 > >阿爾法元與狗的區別

阿爾法元與狗的區別

    在金庸的小說《射鵰英雄傳》裡,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,自娛自樂,終無敵於天下。

    現實世界中,亦有這麼一個“幼童”,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。

    這個“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學第21天后,便被其擊敗。

智搜(Giiso)資訊成立於2013年是國內領先的“人工智慧+資訊”領域技術服務商,在大資料探勘、智慧語義、知識圖譜等領域都擁有國內頂尖技術。同時旗下研發產品包括資訊機器人、

編輯機器人、寫作機器人等人工智慧產品!憑藉雄厚的技術實力,公司成立之初,就獲得了天使輪投資,並在2015年8月獲得了金沙江創投500萬美元pre-A輪投資。

    10月19日,一手創造了AlphaGo神話的谷歌DeepMind團隊在Nature雜誌上發表重磅論文Mastering the game of Go without human knowledge,介紹了團隊最新研究成果——阿爾法元的出世,引起業內轟動。

    雖師出同門,但是師兄弟的看家本領卻有本質的差別。

    “過去所有版本的AlphaGo都從利用人類資料進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。” DeepMind阿爾法狗專案負責人David Silver博士在一段採訪中介紹,“而阿爾法元不使用任何人類資料,完全是自我學習,從自我對弈中實踐。”

    David Silver博士介紹,在他們所設計的演算法中,阿爾法元的對手,或者叫陪練,總是被調成與其水平一致。“所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。”

    這種學習方式正是當今人工智慧最熱門的研究領域之一——強化學習(Reinforcement learning)。

    崑山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經網路開始,然後與一種強大的搜尋演算法相結合,“簡單地解釋就是,它開始不知道該怎麼做,就去嘗試,嘗試之後,看到了結果,若是正面結果,就知道做對了,反之,就知道做錯了,這就是它自我學習的方法。”

    這一過程中,阿爾法元成為自己的“老師”,神經網路不斷被調整更新,以評估預測下一個落子位置以及輸贏,更新後的神經網路又與搜尋演算法重新組合,進而建立一個新的、更強大的版本,然而再次重複這個過程,系統性能經過每一次迭代得到提高,使得神經網路預測越來越準確,阿爾法元也越來越強大。

    其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的“策略網路(policy network)”和評估棋局輸贏的“價值網路(value network)”兩個神經網路。而更為強大的阿爾法元只使用了一個神經網路,也就是兩個網路的整合版本。

    這個意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內涵更加豐富,代表了人類認知的起點——神經元。”李昕教授說。

    上述研究更新了人們對於機器學習的認知。“人們一般認為,機器學習就是關於大資料和海量計算,但是通過阿爾法元,我們發現,其實演算法比所謂計算或資料可用性更重要。”DavidSilver博士說。

    李昕教授長期專注於製造業大資料研究,他認為,這個研究最有意義的一點在於,證明了人工智慧在某些領域,也許可以擺脫對人類經驗和輔助的依賴。“人工智慧的一大難點就是,需要大量人力對資料樣本進行標註,而阿爾法元則證明,人工智慧可以通過‘無監督資料(unsupervised data)’,也就是人類未標註的資料,來解決問題。”

    有人暢想,類似的深度強化學習演算法,或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標註資料的領域。

    不過,究竟有多大實際意義,能應用到哪些現實領域,李昕教授表示“還前途未卜”,“下圍棋本身是一個比較侷限的應用,人類覺得下圍棋很複雜,但是對於機器來說並不難。而且,下圍棋只是一種娛樂方式,不算作人們在生活中遇到的實際問題。”

那麼,谷歌的AI為什麼會選擇圍棋?

    據《第一財經》報道,歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究專案;隨後是1994年電腦程式Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在國際象棋比賽中戰勝世界冠軍加里?卡斯帕羅夫。

    除了棋盤遊戲外,IBM的Watson系統在2011年成功挑戰老牌智力競賽節目Jeopardy遊戲一戰成名;2014年,Google自己編寫的演算法,學會了僅需輸入初始畫素資訊就能玩幾十種Atari遊戲。但有一項遊戲仍然是人類代表著頂尖水平,那就是圍棋。

    谷歌DeepMind創始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年曆史的圍棋是人類有史以來發明出來的最複雜的遊戲,對於人工智慧來說,這是一次最尖端的大挑戰,需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結合。

    “圍棋的搜尋空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位,10的100次方,甚至比宇宙中的原子數量還要多)。”因此,傳統的人工智慧方法也就是“為所有可能的步數建立搜尋樹”,在圍棋遊戲中幾乎無法實現。

    而打敗了人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜尋空間壓縮到可控的範圍之內。David Silver博士此前曾介紹,策略網路的作用是預測下一步,並用來將搜尋範圍縮小至最有可能的那些步驟。另一個神經網路“價值網路(valuenetwork)”則是用來減少搜尋樹的深度,每走一步估算一次遊戲的贏家,而不是搜尋所有結束棋局的途徑。

    李昕教授對阿爾法元帶來的突破錶示欣喜,但同時他也提到,“阿爾法元證明的只是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)‘更優’,但並未證明這就是‘最優’方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果。”

    李昕教授說,人工智慧的技術還遠沒有達到人們所想象的程度,“比如,網際網路登入時用的reCAPTCHA驗證碼(影象或者文字),就無法通過機器學習演算法自動識別”,他說,在某些方面,機器人確實比人做得更好,但目前並不能完全替換人。“只有當科研證明,一項人工智慧技術能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。”

    崑山杜克大學常務副校長、中美科技政策和關係專家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞採訪時表示,阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰性。這種重複性的、充分參與的學習增強了阿爾法元處理更高層次的、戰略複雜問題的能力。但缺點是這是一個封閉的系統。“阿爾法元如何能夠超過自身的侷限獲得進一步的成長?換句話說,它能跳出框框思考嗎?”

智搜(Giiso)資訊成立於2013年,是國內首家專注於資訊智慧處理技術研發及寫作機器人核心軟體開發和運營的高科技企業。公司成立之初,就獲得了天使輪投資,並在2015年8月獲得了金沙江創投500萬美元pre-A輪投資。

在這個資訊極度爆炸的碎片化時代,如果說注意力是這個時代的人們最稀缺、最寶貴也最應該被合理利用的資源,應該沒有人會有異議。依託於自主研發的Giiso引擎,智搜團隊打造了首款智慧媒體平臺天機智訊APP,可以針對使用者的各種指令或文字互動指令,聰明的回答使用者各種相關資訊資訊。並能夠依據使用者的個性化使用特徵而不斷的學習,持續追蹤使用者感興趣的獨特內容。目前,天機智訊APP6.0版本已經更新迭代完,可以應用市場下載使用。

以上,陳如初拙見!若有冒犯,請見諒。

原文見:

http://blog.sina.com.cn/s/blog_18791e9e90102yef6.html

相關推薦

阿爾區別

    在金庸的小說《射鵰英雄傳》裡,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,

圍棋人機大戰中阿爾原理解析,左右互搏,青出於藍而勝於藍?

重新 公園 mas 人機大戰 規律 .com boa beyond 暫時 —阿爾法狗原理解析 這些天都在沒日沒夜地關註一個話題,谷歌人工智能程序AlphaGo(國內網友親切地稱為“阿 爾法狗”)擊敗歐洲職業圍棋冠軍樊麾二段,在圍棋遊戲中達到了人類職業棋手的水平。什麽!!19

【算設計分析基礎】16、高斯消

ane sys cnblogs 根據 gauss tostring logs junit air package cn.xf.algorithm.ch06ChangeRule; import java.util.ArrayList; import java.util.L

列表組的區別

poi mos tdi lin insert 使用 ack use bsp 相同點:都是序列類型 回答它們的區別之前,先來說說兩者有什麽相同之處。list 與 tuple 都是序列類型的容器對象,可以存放任何類型的數據、支持切片、叠代等操作 >>> f

阿爾的“出世”備受關註,作為“網紅”你成功啦!

收購 src 我們 下一步 網易 alphago 不想 科學 .com 阿爾法狗,這個紅透天的新型“網紅”,作為人工智能的新型而又智慧的產物,自從“出世”後就備受大家關註,而關於阿爾法狗與人機大戰已經到了第三回合,[阿爾法請添加鏈接描述](http://www.afa-go

阿爾的影響力?未來機器人能否期待

ado alphago 信息 cto hone 是否 理論 color 領域 “現在,有很多關於阿爾法狗Zero的文章,這些文章更有技術性。我決定從實用的角度講一些事情有人可能會問,這有那麽糟糕嗎?不是阿爾法狗(www.afa-gou.com)已經贏得了嗎?這都是為了贏得更

高斯消原理Matlab實現

直接法解線性方程組-高斯消元法 1.高斯消元法思想 設有線性方程組如下所示: ⎧⎩⎨⎪⎪⎪⎪⎪⎪a11x1+a12x2+⋯+a1nxn=b1,a21x1+a22x2+⋯+a2nxn=b2,⋮an1x1+an2x2+⋯+annxn=bn,

阿爾機器戰勝人類,伺候機器的運維在哪裡?

2016年3月最火爆的新聞,莫過於谷歌的alphago機器4:1大勝李世乭了。一時間各界議論紛紛,我的前同事,運維界非著名段子手 @orroz 在自己微博上寫了兩段話: 跟其他運維工程師覺得這個職業將消失不同,我對運維職業是持極端樂觀態度的,也許運維職業將是人類最後一個職業。很可能祂們在能自理之前還

python 列表組的區別

列表: a = ['a', 3, 2] 元組: b = ('a', 3, 2) 二者都是儲存多個元素的東西, 1. 列表是用中括號表示,元組是用括號表示 2. 列表中資料可變,元組中資料不可

GBDTxgb區別,以及梯度下降和牛頓的數學推導

  2019年01月05日 15:48:32 IT界的小小小學生 閱讀數:31 標籤: xgb gbdt 梯度下降法 牛頓法 xgboost原理 更多 個人分類: data mining 深度學習

阿爾:比特幣演算法交易策略研究,你賺錢只需一個量化

數字貨幣演算法交易模型和策略並非易事。更糟糕的是,目前的數字貨幣狀態是高度不穩定和迅速變化的。由於美國證券交易委員會和各種政府針對數字貨幣交換的規定,市場已成為戰區。儘管存在所有負面訊息,但許多交易員在日內交易數字貨幣資產方面做得很好。 我是Charles,目前就職於阿爾法數字貨幣量化平臺(m.aicoin

論答CEO王楓:AI教育系統已經像阿爾一樣強大

關注網易智慧,聚焦AI大事件,讀懂下一個大時代!出品 | 網易智慧(公眾號 smartman16

對極大極小搜尋和阿爾貝塔剪枝搜尋演算法的簡單描述理解--萌新向通俗易懂

這是本人第一次正經寫部落格,排版技術不行,看起來可能有點難受,但我相信如果大家認真按順序讀下去一定能理解這個演算法,如果還有不是很清楚或者覺得我哪裡有講錯的地方歡迎評論留言!這段時間都在!會看和回覆的! 阿爾法貝塔剪枝是基於極大極小值搜尋的一種演算法。 舉個比較簡單的例子

alphago阿爾學習

最近入坑用AI打遊戲,但是自己根本就不會打,從小乖寶寶,遊戲是啥不知道,怎麼教會agent打o(╯□╰)o。我不管,決定先去扒alphagao是怎麼做的,看我還拿著翻遍實驗室找粗來的總是斷水的筆認真做了筆記, 傳統方法+增強學習+cnn+大資料量,對即時略遊

阿爾 3 天走完人類千年棋史,被反超的我們該如何絕地求生?34 個開源專案告訴你!

2016 年 1 月 28 日,Google 公司 Deepmind 團隊在《Nature》雜誌上發表重磅學術論文,正式介紹在公平對局條件下以 5:0 成績擊敗歐洲圍棋冠軍樊麾的人工智慧程式——AlphaGo。 2016 年 3 月 9 日,AlphaGo 與

運算子過載函式作為類成員函式函式的區別

運算子過載函式作為類成員函式與友元函式 最近在學習C++的基礎,簡單地記一些筆記。 關於運算子過載函式作為成員函式還是友元函式的注意點: 當運算子過載函式作為類的成員函式時,要求運算元左邊必須是一個物件,而函式的引數可以是同類的物件也可以是普通的變數

企業內訓實錄:三子棋版阿爾項目及視頻面試應用開發

ppi 模擬實現 項目 企業應用場景 智能 l數據庫 alphago 安全 如何 課程下載:https://pan.baidu.com/s/1pPIgDBYiqirDGibxrUWuag 提取碼: g9xd 本課程設計三大部分的企業應用:一、數據SQL***的企業防禦解決方

彪悍的職業不懼阿爾

這幾天鋪天蓋地的都是阿爾法狗對陣李世石的新聞。無論李世石最終能否戰勝AI,一個顯而易見的事實是,我等圍棋零段選手倘若對陣阿爾法狗,肯定被虐成渣。 現在阿爾法狗引發了一輪機器學習的新高潮,我估計大家的手機都被刷屏了。反覆討論的幾個問題無非是:電腦到底會不會有真正的智慧?電腦

對數幾率回歸(梯度下降,隨機梯度下降牛頓線性判別(LDA)

3.1 初始 屬性 author alt closed sta lose cnblogs   本文主要使用了對數幾率回歸法與線性判別法(LDA)對數據集(西瓜3.0)進行分類。其中在對數幾率回歸法中,求解最優權重W時,分別使用梯度下降法,隨機梯度下降與牛頓法。 代碼如下:

HAProxyNginx區別

時間 請求 也會 維護 異常 會有 訪問 haproxy 失敗 1)HAProxy對於後端服務器一直在做健康檢測(就算請求沒過來的時候也會做健康檢查):後端機器故障發生在請求還沒到來的時候,haproxy會將這臺故障機切掉,但如果後端機器故障發生在請求到達期間,那麽前端訪問