《人工智慧的明天，中國去哪兒》---湯曉鷗

阿新 • • 發佈：2019-02-01

一年一度的GMIC全球移動網際網路大會在北京舉行，在未來峰會上，香港中文大學教授、資訊工程學系系主任湯曉鷗表示：中國的人工智慧技術想要成功，必須踏實做研究，更多的原創技術才能幫助到中國AI的未來。

湯曉鷗認為：“機器學習就是大資料訓練的過程，大資料訓練需要海量的資料來訓練無窮大的網路，這麼大的資料需求以及GPU叢集需求，並且要進行並行運算，所以這就是巨大的門檻，導致只有谷歌和FaceBook這些公司能取得大的進展，人工智慧需要大量的前期準備，隨便一個創業公司做人工智慧，是不大可能成功的”。

談到中國人工智慧的未來時，他指出：中國的原創技術不應該去B，也不應該去A，也不應該去T，我們應該去H，原創的技術才是核心能力，才是競爭力。（定西）

以下為湯曉鷗演講實錄：

今天的會場真的很大，我以前其實做過很多報告，從來沒有碰到過這麼多沒人坐的地方。非常感謝長城會邀請我來做報告，其實我還是比較難請的。一般來說，這是我第一次做學術以外有點商業性質的報告，為什麼第一次沒有給長城會，我認為長城會更加高階大氣，更加適合我演講的風格。再一個是其他的講壇沒有請我，所以我也沒法去。

我昨天晚上寫了一個講稿，我的題目叫做《人工智慧的明天，中國去哪兒》，看起來是很大的題目，其實我講的內容比這個更大，如果講明天，一定要從昨天開始，後來我決定從1968年開始講，因為我是1968年出生的，之前的事我也特別不是清楚。

1968年出生以後，我發現外面很亂，學校都不上課了。我就問我媽媽說，這是怎麼回事，她說是文化大革命。然後我想，算了，既然學校不開，我也不用上學了，所以就等了七年，七歲的時候上學了，結果在學校一呆，就呆了四十年，四十年下來以後，第一次接觸人工智慧是1992年，在MIT我上了一門課，我記得當時那位教授發明了人臉識別的演算法。當時大家都很激動，這個演算法好像能夠在實驗室裡很好的識別人臉，他說這個東西將來非常有用，可以在公安各種各樣的場合進行應用。

但是等了整整十年，也沒見到用起來。所以我就在我的實驗室也開始做類似的實驗，等我開始做才發現這個東西根本不靠譜，根本用不起來。但是我們還是跟國家申請了很多錢，因為要反恐，所以我們花了很多錢，但是做的東西其實沒有太大用。後來我去了微軟，到微軟就好辦多了，因為微軟不搞監控。它的東西主要是玩，玩的話就無所謂管用還是不管用了，你覺得不好玩，你就不玩了。

當時我們一直有一個想法，怎麼樣把計算機視覺、人工智慧的東西用到日常生活中。因為我們有一個非常強大的團隊，我們不想只是發一些文章，希望它真正用起來。但是在2005年，這個東西基本上用不起來。你們在日常生活中看不到人工視覺任何的用途。所以我在很長時間從2005年開始，我所有講座的題目都叫生活中的計算視覺。

我希望把我們這些演算法能夠在生活中起到一些作用。但是當時有一個問題，因為我們未來在頂級會議上發文章，大家做工程的知道，如果你用幾頁紙的公式，你這個東西基本上是沒有什麼屌用的，所以這兩個矛盾是非常尖銳的。一方面你要保留你的工作，一方面你要做點有用的東西。後來我們決定必須要找最聰明的人，把兩件事情結合在一起做起來。

所以我花了很多心思想，我們做什麼東西才有用，讓大家能夠用起來。這時候我的孩子就出生了，他是03年出生的，出生以後我在微軟和北京、香港之間來回跑，每次見到他的時候我會拍很多照片，因為見的機會比較少，他長的又比較漂亮，所以我拍了很多照片，而且不斷的拍。拍了大量的照片以後太太很不高興，你拍了一萬多張，你不管，這些照片我也找不找，後來我跟的學生說，大家幫我整理一下照片嗎？後來我們做了一個專案用計算機自動的幫助大家整理照片叫Photo Tagging，可能大家在手機上已經用這個了，但是我講的都是十年前的工作，因為我講的都是歷史。十年前我們做了一項工作，裡面有很多技術，我每講一項技術其實都是一篇頂級會議的文章。

比如說我們做的人臉檢測，我們把相簿裡面的人臉檢測出來，然後再進行標註，做了各種各樣的UI設計，我們把這個東西做到微軟的Photo Tagging為裡面。後來我們做影象的搜尋，我想搜尋一下我的小孩穿綠一衣服的照片，把穿這件衣服的照片搜尋出來。後來我覺得前面這十幾張挺漂亮的，我把它選出來，然後做了一個識別軟體，你用計算機自動判斷出來，這個照片裡面哪些部分是重要的，你不能進行遮擋，同時你要把整個背景全部蓋住，同時你要均勻的分佈，所有的條件同時滿足，要在幾毫秒之內算出來，這個技術現在是不難的，但是十年前是相當難的。所以為什麼那時候專門發表一篇文章專門幹這件事情，我做了很多特別效果的軟體，這時候我太太不跟我吵架了，她覺得我幹了一點有用的事情。

我剛才給大家看的其實都是有照片的，我判斷這個照片裡面哪個地方重要，哪個地方不遮擋，我只要用人臉檢測就可以了。但是如果是普通照片，什麼地方我不應該遮擋，什麼地方是重要的，這涉及到影象內容的分析，這就涉及到更加智慧的東西。影象智慧在學界是研究很久的，我們研究的時候前面也已經做了十幾年了，但是我們是第一個用大資料的方法來做這件事情的，現在大家經常聽到大資料，其實十幾年前已經做這件事情了，只是我們叫的名字不一樣。

我們可以看到數字，過來三個學生，要了兩萬張影象，我們覺得很了不起的，現在的資料量是不一樣的，演算法也是不一樣的。那個時候能夠做到是相當了不起的，所以我們最後做出的結果是這樣的，我們計算機可以判斷出一張影象哪個是最重要的。

還有一個好玩的應用，這個東西你把影象縮小以後，你就看不清了，如果你把中間重要的部分切出來再縮小，你還是可以看清圖片的，所以這個實際上還是很有用的，這是照片系統裡面很多圖很容易把裡面重要的部分弄出來。

實際上人工智慧難就難在並不是所有的東西都那麼做的，有些東西是超出我們的智商的。比如說這張圖片，哪個對我來說是更重要的，但是計算機是把前面的判斷出來，這個現在是可以解的，現在我搜集大量小孩撒尿的照片還是可以訓練出來的，但是不是那麼容易的，有的時候領導講話也是這個姿勢。

下面這張圖更難理解了，我用我小孩的圖，你們做影象理解，你們能不能理解這些圖。後來他們看了以後都放棄了這個研究方向，比如說這是我小孩的第一個女朋友，這是我在俄羅斯給他買的玩具，關係還是很好的，但是進展的有點快。他才六個月，很有科學家的探索精神。

然後我們又做了一些有趣的東西，把這個影象把物體切割出來，我們把一組圖同時切割出來，再做一些好玩的東西。

接下來我們希望跟一些電影結合起來，我們就找了小兵張嘎卡通片，我們進行影象搜尋，找出了相似的影象和照片，把這個替換掉了，這個用PS是很容易做的，但是十年前是很難做的。我們從檢索到分割，所有的步驟都是動畫做的，這是十年前的工作，也是發表在頂級的會議上。這個是小兵張嘎跟他的妹妹，這是我的小孩跟他的女朋友。這是小兵張嘎跟特務。

剛才講的是人臉識別，影象方面我們也做了開創性的工作，在我們做之前，大家講這張圖有一些毛病，然後再評價這個Quality，我們做這個工作這張圖是很完整的圖，但是我們判斷這張圖有多美、多漂亮。比如說這兩張圖，按照傳統演算法，左邊是模糊的圖，右邊是清晰的圖，但是我們判斷左邊這張圖是有意義的，怎麼讓計算機來判斷一個圖美，還是不美，其實我們也不知道怎麼做。所以我讓學生到圖書館把攝影書拿回來，我們再用計算機來識別，它的景深，物體的白色在什麼位置，然後學突然這張圖是漂亮，還是不漂亮的。它有什麼用呢？我們在網上搜索了大量的圖，搜尋完了以後我們可以把漂亮的圖放在前面，差的放在後面。或者說你在手機牌照的時候，我們可以教你怎麼牌照，怎麼取景，怎麼樣使用大光圈等等。

我們在MSN上還做了一些特效，加一些眼鏡，如果大家現在用APP可以在臉上做各種各樣的特效，這是我們十年前做的產品，已經在MSN上用了很長時間。但是我們做這麼多產品，大家沒有一點感覺，根本不知道我們做了什麼東西，就是因為做的很辛苦，而且效果也沒有那麼好。

另外一個東西就是去霧，這是我們專門給北京做的，當時08年奧運會的時候，所有的報道都講北京的霧霾太嚴重。所以我們就做了一個演算法把霧去掉了，把三維也算出來了，後來奧運會就成功的舉辦了。

比如說傳統的去霧演算法是這樣的，等我們去完霧以後是這樣的，我們不但把霧去掉了，還能把前景和後景進行模糊。

剛才我講的都是在深度學習發生之前，所以很多事做的非常難。突然有一天，有一個下棋的下了幾局棋結果輸了四盤，所有人都知道了人工智慧這個詞，如果他再多贏兩盤的話，今天就是我來講了，就是科協來講了。如果我們聽到虛擬增強現實、機器人、無人汽車這裡面都有深度學習的影子，深度學習改變了整個產業，深度學習的核心有三塊。

一是你要設計一個網路，這個網路很多人都可以設計。但是每個人設計的網路水平是不一樣的，有的人設計的網路，它的智商大概跟猴子的智商差不多，有的設計出來小學生的智商，有的設計出來博士生的智商。你設計完了以後它的腦子是空的，比如說我68年出生的時候，我是問不出來那些問題的，要經過七年的學習，最後才達到我能上小學的水平，一定要經過學習的過程。機器學習就是大資料訓練的過程，大資料訓練就需要超大的資料，來訓練無窮大的網路。這麼大的資料，這麼大的網路要訓練，又需要大的機器，大的GPU叢集，要進行並行運算。所以這三個就是巨大的門檻，為什麼說谷歌和FaceBook這些公司才能取得巨大的進展，而我們創一個小的公司，忽悠一下做一些佈局，就想做人工智慧，這是不大可能的，其實這是有很多準備工作要做的。

我簡單講一下人工智慧深度學習的歷史，其實深度學習是06年就開始出現的。06年到2011年之前一直在走彎路，基本上是不管用的，在微軟裡面做語音識別，取得了巨大的突破，比傳統演算法高了十幾個百分點，以前我們都是每年走一個點，現在相當於一年走過去十年的進步。2012年又取得了更大的進步，他剛做完這件事情四個月谷歌就買了這家公司，據說是五千萬美元，我們覺得這對於一個教授來說，這個錢確實是挺多的。但是後來谷歌僅過了一年又買了一家公司花了6.6億美金，只有12個人，一個產品也沒有，號稱是2012年做深度學習的。

所以我跟投資人一直強調一點，我們是2011年開始做深度學習的，他們是12個人，我們是30個人，過了一年多，大家都知道了，它下棋贏了，對谷歌造成的PR效應絕對值這個錢了。緊接著谷歌、雅虎大家都開始佈局，而且進展是非常快的。

首先我回答一下我們經常做的事情，比如說人臉檢測，我們是全球第一個用深度學習做人臉檢測的，這是非常難的圖，我們基本上把所有的臉都抓出來了，這是微軟做出來的效果，這是我們跟微軟相比，微軟漏掉的圖。所以我們的人臉檢測目前是全球最準的檢測器，還有人臉定位，我們也是第一個用深度學習做人臉定位的，我們的五點定位和後面的六十幾點和106點都是我們做的，幾乎所有的公司都在說湯老師我在用你們的演算法，我們有些問題想問一下。在中國基本上別人用你的東西，你是掙不了錢的，但是一定要提供售後服務，這個是業界的標準。

最近我們做的另一個有趣的工作，如果我們在網際網路上看到兩個人或者是幾個人的照片，我們可以用深度學習來判斷這兩個人的關係。我們用這兩個人相互的姿態和相互的表情，能判斷兩個人到底是什麼樣的關係，是親密的關係、朋友的關係，還是敵人的關係。比如說奧巴馬和拜登，我們可以判斷八個緯度不同的關係。

（播放視訊）我們可以在視訊裡實時判斷兩個人的關係，比如說這段視訊是夫妻兩個人吵架。我們可以看到他們開始吵架了，這個時候他們的關係就好了，藍線上來了，所以我們是實時判斷兩個人的親密關係。

另外一個就是我們做人臉識別，人臉識別在深度學習之前，其實真的是用不起來的，雖然你見到很多的產品。但實際上不是很管用的，後來深度學習出來以後，我們在2014年的時候做了深度學習演算法。當時FaceBook也做了一個，它做到了97.35，人眼睛的識別率是97.5，我們做了98.5，做到了98.15，後來做到了99.47和99.5，我們都超過了FaceBook和人眼睛的識別率，從那以後人臉識別這件事情在很多商業上可以落地了。

因為我們戰勝了FaceBook和谷歌，所以它們在外面沒有在人臉上進行大的宣傳。但是這並不妨礙國內的公司BAT進行宣傳，幾乎每家公司都宣佈自己做了99%的演算法，我們的演算法是公開的，所有人都可以用這個演算法。

另一個比較大的演算法是ImageNet，這個工作有38個隊伍參加，有伯克利、谷歌、微軟這些大的團隊都參加了，我們在2014年取得了第二名，谷歌取得了第一名，谷歌的結果是43，我們的結果是40.6，後來正式發表論文的時候我們達到了50.3，取得了最好的成績。

這是谷歌的團隊，大家可以看看谷歌團隊都有誰，四大天王的人都聚齊了，而且是全明星的團隊，他們今年買了1.5萬臺GPU，我們最後的成績超過了他們的團隊。

今年我們把重點放在視訊上，在視訊上我們第一次取得了全球第一名的成績。所以我們實際上確實是戰勝了FaceBook和谷歌這兩個巨人。為什麼GPU重要呢？因為所有深度學習的平臺都是基於GPU來做的，今年選了全球十家最頂級的實驗室進行下一代人工智慧平臺的研究，我們實驗室很榮幸被選成亞洲唯一的代表，另外十家包括伯克利、斯坦福，再加上我剛才說的四大天王的學校和瑞士的學校，我們可能是唯一的後起之秀，確實是憑自己的實力擠進來了。

因為我們做深度學習是比較早的，我們從2011年開始做的，2012年、2013年深度學習真正爆炸的時候，我們領先的程度是相當明顯的。深度學習就是這樣的，如果你只做一件事情，比如說你只做人臉識別，你訓練出來的東西就像最後訓練以後，深度學習的智商就像門衛的水平，如果你只做駕駛，你最後訓練出來一個出租汽車司機。其實你應該像人一樣，既要上數學課，也要學物理課，也要學音樂和畫畫，這個時候你的大腦才聰明，我們不是為了打敗谷歌和FaceBook，我們不是為了做著玩的，我們參加競賽得到結果以後，實際上我們可以在其他的領域直接用這個戰勝以前做了很久專業做這個公司的演算法，所以我們在視覺領域幾乎所有的方向都取得了重大的突破，所有的東西我們都在做。

這樣我們才造了引擎，用這個引擎才能搜尋所有的東西。我們在深度學習之前，每年發表的文章，我們總共發表了57篇，伯克利是33篇，牛津是45篇，劍橋是30篇，中國是64篇，我們跟國際頂級實驗室頂級會議的數量是相當的，每個頂級會議都有一篇最佳論文，當然一兩千篇要選出一篇最佳論文，排名第一的就是做人臉識別的那篇文章取得了第一名，得到最佳論文。前五名的會議我們得了五次四個會議的最佳論文，這個在所有的實驗室裡面是絕無僅有的。

我要感謝我們的學生，我們的學生基本上都是中國最聰明的，都是清華前幾名的學生，第一、第二、第三的學生。大家知道中國的高考是很多人一起考的，我們把排在最前面的幾個收到我們的實驗室，就是由於他們才做出這些成績。

下面有一個小視訊給大家看一下，我們最近做的工作的簡單總結。（播放視訊）

我想講的是中國是需要做原創技術的，中國原創技術應該去哪兒呢？我覺得不應該去B，也不應該去A，也不應該去T，我們應該去H。我覺得在中國只有華為是真正做原創技術的，不是說他做人工智慧有多好，這是我唯一佩服的公司，而且他們的老總還親自打車，這是非常不容易的，當然這也沒有什麼了不起的，我也是親自打球的，謝謝大家。

-------本文來源網易科技報道http://tech.163.com/16/0429/10/BLQIDG0900094P0U.html-----------------

《人工智慧的明天，中國去哪兒》---湯曉鷗

《人工智慧的明天，中國去哪兒》---湯曉鷗

湯曉鷗與MIT、賓大教授共話AI：熱潮終將退去，人工智慧的中國式文藝復興

湯曉鷗教授：人工智慧讓天下沒有難吹的牛！ | 行業

湯曉鷗教授的一篇很有意思的文章

陳天石吳翰清顧嘉唯光速對話（湯曉鷗今天沒有晒娃）

去哪兒網怎麽淪為騙子的平臺了，一步步揭開去哪兒網欺騙消費者的把戲

3月第3周業務風控關註 | 去哪兒員工利用漏洞，薅美團羊毛 45 萬

35歲了，轉去谷歌做人工智慧靠譜嗎？

陸奇，去哪兒？

2017春招網際網路產品經理筆試題整理|騰訊，阿里，京東，網易，頭條，去哪兒，攜程，人人

攜程、去哪兒、藝龍，三分歸一統的覆盤與展望

看懂中國人工智慧格局，這一篇就夠了

高校人工智慧教育需要中國專屬的資料科學平臺，和鯨科技K-Lab為此而生

與微信同行近 8 年，49 歲的張小龍去哪兒了？

爬取去哪兒網北京南站驢友點評，及詞雲

不懂這些高併發分散式架構、分散式系統的資料一致性解決方案，你如何能找到高新網際網路工作呢？強勢解析eBay BASE模式、去哪兒及蘑菇街分散式架構

爬取去哪兒網 6000 多個景點資料告訴你，國慶哪裡不是人山人海！

G20國家科技競爭力大盤點，中國科研創新表現突出，人工智慧變道超車

爬了知乎 200 萬資料，圖說程式設計師都喜歡去哪兒工作

2017年，去哪兒機試程式設計題《統計字元》--》找出字串中首先出現3次的字元

《人工智慧的明天，中國去哪兒》---湯曉鷗

相關推薦