1. 程式人生 > >關於大資料和人工智慧發展的思考

關於大資料和人工智慧發展的思考

10月12日,第七屆中國智慧產業高峰論壇在佛山開幕,在第一天的主論壇上,北京拓爾思資訊科技股份有限公司副董事長、總裁施水才發表了主題為《大資料人工智慧發展的思考》的精彩演講。

在演講中,施水才先生從自身多年大資料技術和服務領導者角色的角度,介紹了旗下利用大資料技術推出的資料增值服務平臺,並得出了“資料——資訊——知識——智慧——智慧”的價值提升路徑。從大資料、雲服務到人工智慧,施水才為嘉賓鋪設了一條如何利用大資料去實現人工智慧增值的道路,有很大的參考價值。

以下是施水才先生的演講整理稿:

大家上午好。非常感謝中國人工智慧學會邀請我在大會上做分享報告。今天我想給大家分享一下對於大資料和人工智慧產業的發展思考。

我想講的第一點是我認為把大資料和人工智慧產業進行一些比對,把這兩個事情放到一起比對是非常有意義的。第二點想講的,到底我們是人工智慧+行業,還是行業+人工智慧,談一下我的理解和認識,第三點我覺得我們需要突破人工智慧現在非常強調3個要素,就是計算能力、資料和演算法,我認為對於未來人工智慧的研究和應用,僅有這三點是不夠的,應該有其他重要的因素需要加進來。第四點我想探討的是我們現在在人工智慧的幾個方向裡面,哪一些還有大的機會,來讓我們創新、創業、賺錢,最後講一講我們自己基於NLP平臺的一些人工智慧應用實踐。

大資料和人工智慧產業的對比

對比大資料和人工智慧產業的發展是有啟發的。因為人工智慧的發展和資料密不可分,而且目前人工智慧發展所取得的成就大部分和大資料密切相關,因此觀察大資料產業的發展對人工智慧產業發展很有意義,同時我們認為資料驅動的商業(Data Driven Business)比智慧驅動的商業更符合產業的本質,實際上大資料產業的落地能力是強於人工智慧的,所以大資料產業發展中出現的問題對人工智慧產業發展很有意義。

大資料的發展有幾個方面對人工智慧的發展有啟發。包括資料的重要性,資料質量的重要性,應用場景的重要性,行業知識的重要性、政策法規的重要性,以及變現的模式的參考意義。大資料從2010年在美國白宮首先開始制定一些政策,到2012年我們國家開始熱起來,這幾年出臺了很多政策規範,甚至搞了很多園區,但是我們現在發現整個大資料產業仍然處於非常早期的階段。為什麼這麼說 第一,它在哪些方面推動了產業的變革 第二,誰賺到錢了 現在基本上只有網際網路的大公司通過推薦精準化營銷、電子商務等等賺到錢了,但是我們大量從事產業大資料的企業大部分還在燒錢,行業也沒有從大資料中收益和發生大的產業變革,仍然處於非常早期階段。人工智慧也是一樣的,大部分的AI企業仍處於投資和燒錢的階段。

再細化一下,我們看看影響整個大資料產業發展的4個要素:資料開放、技術研發、產業生態、法律法規。總體上講,目前大資料產業發展非常早期,仍然是大資料投資和創業的良機,在產業生態上主要的特徵是壟斷和新的資料孤島,大資料創業公司仍需3-5年才能實現規模盈利,大部分在持續的燒錢,2017-2018年產業整合趨勢明顯。在資料方面,網際網路大企業的資料霸權主義、政府資料公開的艱難(在國際上很落後,60名開外),行業和企業資料的難以獲得以及灰色資料灰色產業鏈,以及個人隱私問題都非常的突出,我們國家每年資料交易的市場是500個億以上,但是合法的只有10%左右,90%都是灰色資料鏈,所以導致最近公安查,說很多大公司被抓起來了,個人隱私問題非常突出,要破解資料的魔咒,需要在法律法規和產業生態兩個角度去破局。

除了資料及資料的質量外,應用場景是非常重要的,大資料的4個V不重要,hadoop/Spark不重要,重要的是應用場景,那麼對AI來說也是一樣的,因為實際上我們看到大資料和AI的熱門應用領域實際上重合度很高:金融、健康醫療、教育、線上廣告、情報分析……。應用場景和行業密切相關,主要是垂直化和行業化,一旦進入行業,你就會發現,很多問題來了,所以我們說人工智慧發展僅僅強調資料、算力、演算法是不夠的。

政策法律也非常重要,在網際網路時代,我們國家網際網路發展為什麼快 其中一條人多,人口紅利,還有一條非常重要規則沒那麼嚴,政府和行業對網際網路的支援比較多,企業層面有時甚至有點蔑視規則。但是大資料和人工智慧時代,像網際網路早期那樣野蠻發展已經行不通了。現在資料開放和隱私保護,從個人隱私到人身安全,因為搞不好會死人的。

小節一下,通過對比大資料和人工智慧產業的發展,我們可以得到如何幾個結論: 人工智慧產業仍處於非常早期的階段;資料的重要性不容置疑,但問題多多;應用才是驅動力;垂直行業才是大部分參與者的機會所在。

人工智慧+行業 or 行業+人工智慧

今天想和大家分享的第二點是關於到底是“人工智慧+行業”還是“行業+人工智慧”。 我的基本看法是行業+人工智慧仍然是智慧產業發展的主流。 我們覺得“行業+人工智慧”可能佔到90%,“人工智慧+行業”可能只佔到10%。區別在哪裡 人工智慧+行業是創造新模式,更多表現在以前這個行業不成熟,或者沒有現有的很好的商業模式,比如像自動駕駛;而行業+人工智慧是對用人工智慧技術對行業進行變革和改造,要麼降低成本,要麼提高決策和管理水平。比如法律啊、教育啊、金融啊。很對AI的新技術在消費領域和工業領域的應用也不一樣,比如消費領域的人臉識別、美顏相機在工業領域可能是身份認證、銀行開戶、安防監控、商業分析;消費領域的語音識別和輸入法技術可能是智慧客服應用,深度學習影象識別在工業領域可能是智慧分揀和安檢應用。

如果90%的機會在於“行業+人工智慧”,那麼錢、資料和演算法就是不是決定性的因素,如果錢是決定性的因素,那未來也就不會有什麼創新了。行業知識和行業專家是壁壘,所以說大公司壓迫下的創業公司仍具有廣闊的空間,那麼那些行業將實現AI爆發或者說受到衝擊最大呢 剛才李德毅院士說的很好,四個行業,製造業、教育、金融、醫療,我非常認同,我覺得最關鍵的是要看兩點,一個是行業本身的成長空間,就是說是否足夠大,是否未來有成長性,另一個是這個行業是否依賴於人的經驗和知識,依賴越大的,被人工智慧取代的需求就越大,比如醫生,主要是專家太少。我們投資過的一個專案,是病理切片癌症診斷,據說全國能看病醫生也就不到1萬個,而合格的專家只有不到500個,你看需求多大,大資料和人工智慧可以解決這個問題,IBM Watson的思路也是一樣的。另外就是律師和金融行業的人,主要是太貴,律師一小時多少錢,金融行業動不動幾百萬,其實你用了大資料和人工智慧後發現,其實他們不值這麼多錢。剛才李院士說製造業我國使用機器人的數量遠遠落後韓國日本等,主要原因我覺得還是成本問題,所以我認為最緊迫的可能不是家政機器人之類的,而是取代高成本的人力以及人力不夠的行業。

人工智慧產業還有一個特點比較鮮明的。就是他是Embedded,嵌入式的,所以可以說AI技術是一種Enabling Technology。未來所有的企業都應該是AI企業,所以你看現在包括Google百度都說自己是AI All In。

人工智慧的三要素問題

今天想和大家分享的第三點是關於人工智慧的三要素問題。現在講人工智慧,就和大資料的4個V一樣, 幾乎每個專家都要將人工智慧三要素,資料、計算力、演算法 。但是真的夠了嗎。我認為不夠,為何什麼說呢,大家看看,人工智慧正從計算智慧、感知智慧向認知智慧及創造智慧的方向發展,認知智慧包括理解、運用語言的能力,掌握知識、運用知識的能力,在語言和知識上的推理能力,主要集中在語言智慧即NLP。到了認知智慧這個階段光有資料、演算法、和計算資源我認為不夠的,需要什麼 我認為重要的一點可能還需要很多的知識,需要有知識圖譜等別的很多東西,所以知識可能是第四個要素。從另外一個角度,目前人工智慧三要素中對應用場景沒有論及,所及基本還是從技術層面來考慮問題的,我們認為不夠,所以應用場景的問題是否可能成為第四要素 再者人共智慧必須考慮人的問題,是人工+智慧,人機協作的問題在很多AI場景中必須考慮。所以我提出一個問題,如何尋找人工智慧的第四要素 

人工智慧的重點機會和方向問題

今天想和大家分享的第四點是人工智慧的重點機會和方向問題。這就是以自然語言處理即NLP為代表的認知智慧。目前AI硬體領域的投資很厲害,也是大公司的天下,比如GPU,FPGA,ASIC晶片等,在視覺領域的投資,也很多,特別是影象識別啊、語音識別啊,誕生了不少獨角獸公司,技術進步也很快,但是太多了。不是未來的投資方向。而以自然語言處理為核心的認知智慧,目前在國內的投資及發展和美國有不少的差距。根據騰訊研究院的報告,美國在NLP領域的新創其實差不多是中國的3倍,根據烏鎮智庫的報告,2000-2016年,全球累計新增自然語言處理企業資料達到543家。2009年以來,美國每年新增的自然語言處理企業佔當年全球新增企業總數的比例保持在40%左右,根據調研公司CB Insights近日公佈的“最值得關注的100家人工智慧公司,約25%的專案與“自然語言處理”直接或間接相關,所以說NLP已經成為最值得關注的人工智慧公司。根據福布斯精選Top50 AI公司2016年融資34.15億美元,其中約16.2%的資金投向“自然語言處理”直接或間接相關。

為什麼是這樣的情況呢 因為在目前AI領域,依託大資料和深度學習,進展最快、效果得最好的是機器識別,機器識別結合機器學習在很多AI應用場景下實現了較好的機器智慧,但是識別不等於理解,未來實現強機器智慧或“智慧”,還需要解決機器理解和推理的難題,特別是自然語言理解/生成(自然語言處理技術)。如何讓機器像人一樣思考,理解人類語言、用人類語言表達、感知和表達情感、進行推理、規劃、決策、具備自學習進化能力這些都是NLP的難題。

NLP包含的內容也是保羅永珍,從詞法、句法、語義、篇章、語言表示等基礎技術,到分類、聚類、情感分析、知識圖譜、機器翻譯、自動摘要、自動問答、資訊抽取等核心技術,到搜尋引擎、智慧客服、輿情監控等NLP+,再到各垂直行的“行業+NLP”。早期大家認為深度學習對NLP貢獻不大,這兩年有所突破,我們在6個數據集上的測試表明,深度學習對自動分類的貢獻還是比較大的,平均可以提高5個百分點,所以深度學習對NLP有用,但是提高的精度還不夠。

整個在自然語言處理裡面,有幾個東西我認為現在非常熱,第一個就是聊天機器人或者虛擬助理。明天有一個專門的論壇講這個,特別好,我在這裡不多講了。為什麼這樣說 因為它是所有自然語言處理技術的集大成,而且是未來爭奪入口的一個焦點,所以蘋果、微軟、臉書、亞馬遜都在搞,而且未來這些平臺都會走向開源。

總的來說國內目前在自然語言處理的投資遠遠落後於對視覺處理領域的投資,這是我們的一個機會。 但是自然語言的處理障礙壁壘更大,和行業結合得更加緊密,這是它的一個特點。

最後和大家分享一下我們公司基於大資料+NLP技術做的一些事情,拓爾思是一家以大資料+人工智慧為發展戰略的創業板上市公司,拓爾思的人工智慧的發展戰略,首先是AI All in的路線,即我們所有的技術產品、應用產品和雲服務都是內嵌AI技術;第二是大資料驅動,利用大資料的技術和應用基礎來支撐和驅動AI技術和應用的發展;第三是應用場景優先,因為沒有業務場景這些技術的東西就沒有用武之地,需要應用場景來前導拉動和價值變現。當前拓爾思AI技術主要拓展的場景在金融、安全、傳媒、司法、情報等垂直行業領域;此外,拓爾思再技術發展路徑方面強調兩條,第一個是雲服務落地,逐步把業務都做成雲服務的模式,第二條致力於垂直整合,如果不能形成垂直整合的生態閉環,你就不能賺大錢,實現更高的盈利能力和競爭門檻。同時我們也強調與巨人同行,技術上既採用開源開放的框架和平臺,又要研發出自己專攻領域超越和創新的成果。

總結,我認為我們分析比較大資料產業的發展對人工智慧的產業發展非常有意義;第二我們認為行業+人工智慧仍然是主流,行業裡有更大的空間可以供大家去創新和創造;第三面對人工智慧的落地和進一步發展需要,人工智慧三要素還不夠,還需要知識作為第四要素;第四是在自然語言處理領域的裡的創新機會和拓爾思在這方面應用實踐。希望與大家共同努力,推動我們國家人工智慧產業特別是自然語言處理技術領域更快更好地發展。