1. 程式人生 > >大資料與人工智慧

大資料與人工智慧

轉自:http://sanwen8.cn/p/G4beJX.html

技術不足導致移動網際網路難以催生出更多的新應用和商業模式,為突破瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經誕生,將成為未來10年乃至更長時間內IT產業發展的焦點,它的名字叫做“人工智慧”(AI)。

只有人工智慧才能為“萬物互聯”之後的應用問題提供最完美的解決方案,它將成為IT領域最重要的技術革命,目前市場關心的IT和網際網路領域的幾乎所有主題和熱點(智慧硬體、O2O、機器人、無人機、工業4.0),發展突破的關鍵環節都是人工智慧。

人工智慧是指計算機系統具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的複雜任務。硬體體系能力的不足加上發展道路上曾經出現偏差,以及演算法的缺陷,使得人工智慧技術的發展在上世紀80—90年代曾經一度低迷。近年來,成本低廉的大規模平行計算、大資料、深度學習演算法、人腦晶片4大催化劑的齊備,導致人工智慧的發展出現了向上的拐點。

國際IT巨頭已經開始在人工智慧領域頻頻發力,一方面網羅頂尖人才,一方面加大投資力度,人工智慧新的春天已經到來。自然語言處理、計算機視覺、規劃決策等AI細分領域近期進展顯著,很多新的應用和產品已經驚豔亮相。

由於技術的複雜度,未來5-10年內,專用領域的智慧化是AI應用的主要方向,在更遠的將來,隨著技術的進一步突破,通用領域的智慧化有望實現。無論是專用還是通用領域,人工智慧都將圍繞“基礎資源支援-AI技術-AI應用”這三層基本架構形成生態圈。

在專用領域的智慧化階段,有能力的企業都希望打通三層架構。他們有的將從上往下延伸,如蘋果、海康威視、小米等智慧硬體企業;有的試圖從下往上拓展,如百度、谷歌、IBM等網際網路和IT的巨頭,以及科大訊飛、格靈深瞳等AI技術新貴。產業格局更多地表現出“競爭”而非“合作”,整個行業依然處於野蠻生長的初期階段。我們認為,該階段最值得投資的是已經具備先發優勢的AI企業,無論他目前處於哪一層都可以。

在未來通用智慧時代,除了自然語言處理、計算機視覺等AI技術在某些領域的直接應用,人工智慧更大的影響在於將重塑生活服務、醫療、零售、數字營銷、農業、工業、商業等各行各業,並將引發新一輪IT裝置投資週期。智慧化的大潮即將來襲,萬億元的市場規模值得期待。

我們從兩個維度選取人工智慧產業的A股投資標的:首先是直接提供AI技術或有關裝置的公司,然後是利用AI技術為不同行業提供解決方案的公司。

1. 新技術革命登場,IT發展焦點將從網際網路轉向人工智慧

發軔於2007年的移動網際網路浪潮已經席捲全球,極大地改變了我們的生存狀態。然而,就在資本市場熱切地期待移動網際網路催生出更多新應用服務、更多新商業模式的時候,由技術水平不足導致的發展瓶頸已然出現。與此同時,為突破上述瓶頸,新一輪更激動人心、更值得期待的技術革命風暴已經誕生,將成為未來10年乃至更長時間內IT產業發展的焦點,將再次並更加徹底地顛覆世界。這一輪技術革命風暴,它的名字叫做“人工智慧”(ArtificialIntelligence,以下簡稱AI)。

1.1 基於網際網路的應用服務發展已遭遇技術瓶頸,AI將成開鎖金鑰匙

基於PC的網際網路、基於手機和平板電腦的移動網際網路以及基於各種其他裝置的物聯網,其本質是解決了“連線”問題:連線人與人、人與物以及物與物,並且在連線的基礎上創造出新的商業模式。以國內BAT三巨頭為例,百度完成的是人與資訊的對接,商業模式以網路廣告為主;阿里解決的是人與商品的對接,電商是其商業模式;騰訊則實現了人與人的對接,依靠強大的免費社交軟體吸引龐大的使用者群,在此基礎上利用增值業務和遊戲來實現貨幣化。


儘管網際網路的普及打造了包括谷歌、亞馬遜、百度、阿里、騰訊、京東等一批巨頭以及數量更為龐大的中小企業,基於網路的創新應用和服務型別也多種多樣,但技術瓶頸的制約已經越來越明顯:生活方面需求痛點的解決、生產領域具有適應性和資源效率的智慧工廠的建立、物流體系中更加方便快捷的配送方式建設等問題,都面臨智慧化程度不足帶來的障礙。只有人工智慧才能為“萬物互聯”之後的應用問題提供最完美的解決方案。

人工智慧的價值如此重要,以至於我們可以毫不誇張地說,它將成為IT領域最重要的技術革命,目前市場關心的IT和網際網路領域的幾乎所有主題和熱點(智慧硬體、O2O、機器人、無人機、工業4.0),發展突破的關鍵環節都是人工智慧。


下面我們將通過一些例子和應用場景來更形象具體地展示上述瓶頸以及AI的重要性。

1.1.1 智慧冰箱還不能告訴我們做什麼

由於生活節奏加快人們的空閒時間大為減少,做家務的時間日益顯得不足,我們需要一款聰明的冰箱,讓冰箱告訴我們做什麼。來自奧維諮詢的《中國家用冰箱食品浪費調查報告》顯示,“每個家庭平均每年發生176次食物浪費現象。70%受訪者表示,造成浪費的主要原因是一次購買太多和放入冰箱後忘記。智慧冰箱的出現,不僅可以自行“清理門戶”,採購新鮮食品,還能統籌安排,減少食材浪費,製作個性化食譜。它會根據食材新鮮與否,把不新鮮的食材調動到距離冰箱門最近的地方,提醒主人“它該吃了”。此外,智慧冰箱能對使用者的膳食合理性進行分析,製作菜譜。同時提示需要補充的食材,如果與生鮮電商聯網的話,可以自動選擇送貨上門,直接實現食物的配送發貨收穫自動化和智慧化。2014年美菱率先推出全球首臺雲圖像識別智慧冰箱ChiQ,突破全球智慧冰箱技術門檻,該冰箱具備變頻功能,可以用語音搜尋、自動推薦等多種方式進行食譜推薦,並實現手機的遠端檢視和控制。

智慧冰箱功能法的升級,提升使用者體驗和價值,背後的最大核心是自動識別技術的突破。影象識別技術通過影象採集系統得到食材圖片,運用影象識別演算法,轉化成食品的資訊列表。而通過影象識別技術,判斷食材的種類是實現冰箱智慧化的拐點。

可見,不是使用者對智慧家居的需求不存在,而是現有的技術無法支撐家居的智慧化,這個瓶頸無法突破,智慧家居永遠是紙上談兵。那麼,解決這個問題的鑰匙在哪裡?人工智慧技術的突破:影象識別背後的底層技術就來自於人工智慧的演算法和應用!

1.1.2 O2O尚未實現生活服務智慧化

試想這樣一個場景,你想選擇一個地方和朋友吃飯,首先你會開啟一個應用,在這個過程中它會自動確定你所在的位置,然後你通過語音開始向其發出請求“我想在這附近找一家中式餐廳,下午將要與朋友一起就餐,消費價格適中。”應用根據你發出的請求及過往的生活習慣為你尋找到數十家備選方案優選列表,然後你可以根據興趣與愛好選擇直接確定方案,或者實時開啟檢視各家的型別、折扣、評分、環境、位置、菜品、使用者評價等綜合資訊並進行篩選,這些資訊綜合在一起形成了你對某家餐廳的判斷和最終的決策。這時你可以就一些問題與餐廳的服務人員進行實時的溝通,然後交付押金輕鬆的進行預訂。預訂好了餐廳之後,通過語音控制,你可以將資訊轉發給朋友。當你到了該出發赴約的時候,這個應用開始提醒你,並可以選擇是否開啟地圖語音導航模式,為你提供位置和路線服務。從本質上說,消費者和商戶存在各自資訊獲取不對稱的問題,而O2O在於把服務業網際網路化,將商戶與消費者之間連線的更好,讓資訊不對稱的問題都能解決,這不僅能夠幫助商戶,也能夠幫助消費者。消費者對O2O的最大訴求主要是在前端資訊的檢索和獲取,而商家的目的在於持續獲取消費者,這主要通過前端提供消費者資訊影響其購買決策,並通過後期客戶管理增強與使用者關係。

網際網路的O2O商業模式氣勢洶洶的顛覆傳統行業,似乎發展到現在好像開始止步不前了。目前點評網站、地圖導航、預定網站、優惠券網站等很好地滿足了消費者資訊獲取來源,但移動搜尋引擎卻未能很好滿足消費者檢索的需求,使他們可以方便地查詢餐廳以及優惠地享受服務。綜合來看,未來的O2O會是一個融合線下資訊聚合、語音識別、自然語言解析、搜尋引擎、點評資訊聚合、預訂服務、地圖導航、NFC、CRM、語音以及實時溝通等功能為一體的基於位置的服務平臺。然而,至今仍然懸而未決的技術瓶頸是:自然語言的解析。如何通過對使用者的自然語言(文字+語音)等資料,結合知識圖譜,推理出使用者的需求並精準的推送使用者所需的本地化生活服務?這扇大門的鑰匙也是在人工智慧技術的突破!

1.1.3 無人機尚不能自主飛行

目前無人機雖然在軍事和民用領域都得到了應用,但其智慧化程度還遠遠不夠,仍然需要人遙控操縱,尚未實現自主飛行。

設想一下你開啟家裡的窗子,一架無人機恰巧停在窗外,你從無人機上取下自己購買的物品,然後拿出手機確認收到,無人機才緩緩飛走,去尋找下一個客戶。或者,下午你要去某咖啡館與客戶交流,恰巧有一個快遞要送來。你提前通知快遞公司,讓無人機指揮中心更改送貨路線,通知無人機將快遞送到咖啡館。物流體系使用無人機取代人工,實現貨物派送的設想一旦實現,將大大提高配送效率,減少人力、運力成本,可以說承載了人們對於未來物流的夢想。但這一夢想如果要得以實現,必須要使無人機具備感知和規劃的智慧。

低空以及在建築物內部飛行會遭遇很多的障礙物,即使預先設定飛行線路,也無法避免臨時出現的障礙(比如寫字樓裡突然關上的門),這就需要無人機具備視覺功能、不確定性環境下的路線規劃以及行動能力。此外,為保證準確投遞,無人機或許還要具備人臉識別的能力,可以通過預先發送的照片識別出收貨人。這些感知、規劃和行動能力都屬於人工智慧技術。

1.1.4 智慧化是工業4.0之魂

第一次工業革命是隨著蒸汽機驅動的機械製造裝置的出現;第二次工業革命是基於勞動分工的,電力驅動的大規模生產;第三次工業革命是用電子和IT技術實現製造流程的進一步自動化;而如今,第四次工業革命正在來臨!

“工業4.0”,是一個德國政府提出的高科技戰略計劃。這個概念包含了由集中式控制向分散式增強型控制的基本模式轉變,目標是建立一個高度靈活的個性化和數字化的產品與服務的生產模式。在這種模式中,傳統的行業界限將消失,並會產生各種新的活動領域和合作形式。創造新價值的過程正在發生改變,產業鏈分工將被重組。

從以上的描述中不難看出,工業4.0對智慧化的要求涵蓋更廣,涉及機器感知、規劃、決策以及人機互動等方面,而這些領域都是人工智慧技術的重點研究方向。

2. 人工智慧技術“奇點”到來

在宇宙大爆炸理論中,“奇點”是指由爆炸而形成宇宙的那一點,即宇宙從無到有的起點。而在美國著名科學家雷·庫茲韋爾(Ray·Kurzweil:發明了盲人閱讀機、音樂合成器和語音識別系統;獲9項名譽博士學位,2次總統榮譽獎;著有暢銷作品《奇點臨近》,現任奇點大學校長)的理論中,“奇點”是指電腦智慧與人腦智慧相互融合的那個美妙時刻。我們認為,這個美妙時刻正在到來。

2.1 什麼是人工智慧:從“smart”到“intelligent”

目前市場上所謂“智慧”的裝置或概念很多,從智慧手機到智慧家居等,但這些“智慧”實際上是“smart”的含義,即靈巧;真正意義上的智慧應該是“intelligent”的含義。

“人工智慧”一詞最初是在1956年達特茅斯學會上提出的。從學科定義上來說,人工智慧(ArtificialIntelligence)是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是電腦科學的一個分支,它企圖瞭解智慧的實質,並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器。

人工智慧的概念和定義有多種,下圖中沿兩個維度排列了AI的8種定義。頂部的定義關注思維過程和推理,而底部的定義強調行為。左側的定義根據與人類表現的逼真度來衡量成功與否,而右側的定義依靠一個稱為“合理性”(Rationality)的理想的表現量來衡量。

如果從比較容易理解的角度來概括的話,人工智慧是指計算機系統具備的能力,該能力可以履行原本只有依靠人類智慧才能完成的複雜任務。


人工智慧的應用領域主要包含以下幾個方面的內容:

自然語言處理(包括語音和語義識別、自動翻譯)、計算機視覺(影象識別)、知識表示、自動推理(包括規劃和決策)、機器學習、機器人學。

2.2 人腦的精密結構難以複製,人工智慧技術曾一度受阻

2.2.1 超大規模並行結構使得人腦功能強勁

人類的大腦中有數百至上千億個神經細胞(神經元),而且每個神經元都通過成千上萬個“突觸”與其他神經元相連,形成超級龐大和複雜的神經元網路,以分佈和併發的方式傳導訊號,相當於超大規模的平行計算(Parallel

Computing)。因此儘管單個神經元傳導訊號的速度很慢(每秒百米的級別,遠低於計算機的CPU),但這種超大規模的平行計算結構仍然使得人腦遠超計算機,成為世界上到目前為止最強大的資訊處理系統。

2.2.2 計算機的傳統結構制約人工智慧的發展

美籍匈牙利科學家馮·諾依曼(JohnVon·Neumann)是數字計算機之父,首先提出了計算機體系結構的設想,目前世界上絕大多數計算機都採取此種結構,它也被稱之為馮·諾依曼體系結構。簡單來說,馮·諾依曼體系結構的基本特徵有以下幾點:

1、採用儲存程式方式,指令和資料不加區別混合儲存在同一個儲存器中,指令和資料都可以送到運算器進行運算,即由指令組成的程式是可以修改的。

2、儲存器是按地址訪問的線性編址的一維結構,每個單元的位數是固定的。

3、指令由操作碼和地址組成。操作碼指明本指令的操作型別,地址碼指明運算元和地址。運算元本身無資料型別的標誌,它的資料型別由操作碼確定。

4、通過執行指令直接發出控制訊號控制計算機的操作。指令在儲存器中按其執行順序存放,由指令計數器指明要執行的指令所在的單元地址。指令計數器只有一個,一般按順序遞增,但執行順序可按運算結果或當時的外界條件而改變。

5、以運算器為中心,I/O裝置與儲存器間的資料傳送都要經過運算器。

6、資料以二進位制表示。


人工智慧對計算機效能的要求很高,尤其是在非數值處理應用領域。馮·諾依曼體系的序列結構和人腦龐大複雜的並行結構相去甚遠,使得現有計算機系統難以迅速有效地處理複雜的感知、推理、決策等問題。硬體體系能力的不足加上發展道路上曾經出現偏差(希望直接在通用型的人工智慧方面取得突破),以及演算法的缺陷,使得人工智慧技術的發展在上世紀80年代末到90年代曾經一度低迷。

2.3 四大催化劑齊備,人工智慧發展迎來轉折點

近幾年來,隨著技術的進步,人工智慧的發展出現了顯著的復甦趨勢。我們認為,下述4個方面的原因帶來了人工智慧發展的向上拐點。

2.3.1 雲端計算使成本低廉的大規模平行計算得以實現

上文中提到,馮·諾依曼體系的序列結構使得計算機無法滿足人工智慧對硬體的要求,而近年來雲端計算的出現至少部分解決了這個問題。

從概念上講,可把雲端計算看成是“儲存雲+計算雲”的有機結合,即“雲端計算=儲存雲+計算雲”。儲存雲的基礎技術是分佈儲存,而計算雲的基礎技術正是平行計算:將大型的計算任務拆分,然後再派發到雲中的各個節點進行分散式的計算,最終再將結果收集後統一處理。大規模平行計算能力的實現使得人工智慧往前邁進了一大步。

雲端計算的實質是一種基礎架構管理的方法論,是把大量的計算資源組成IT資源池,用於動態建立高度虛擬化的資源供使用者使用。在雲端計算環境下,所有的計算資源都能夠動態地從硬體基礎架構上增減,以適應工作任務的需求。雲端計算基礎架構的本質是通過整合、共享和動態的硬體裝置供應來實現IT投資的利用率最大化,這就使得使用雲端計算的單位成本大大降低,非常有利於人工智慧的商業化運營。


值得特別指出的是,近來基於GPU(圖形處理器)的雲端計算異軍突起,以遠超CPU的平行計算能力獲得業界矚目。

CPU和GPU架構差異很大,CPU功能模組很多,能適應複雜運算環境;GPU構成則相對簡單,目前流處理器和視訊記憶體控制器佔據了絕大部分電晶體。CPU中大部分電晶體主要用於構建控制電路(比如分支預測等)和高速緩衝儲存器(Cache),只有少部分的電晶體來完成實際的運算工作;而GPU的控制相對簡單,而且對Cache的需求小,所以大部分電晶體可以組成各類專用電路、多條流水線,使得GPU的計算速度有了突破性的飛躍,擁有了驚人的處理浮點運算的能力。現在CPU的技術進步正在慢於摩爾定律,而GPU的執行速度已超過摩爾定律,每6個月其效能加倍。

CPU的架構是有利於X86指令集的序列架構,從設計思路上適合儘可能快的完成一個任務;對於GPU來說,它最初的任務是在螢幕上合成顯示數百萬個畫素的影象——也就是同時擁有幾百萬個任務需要並行處理,因此GPU被設計成可並行處理很多工,天然具備了執行大規模平行計算的優勢。

現在不僅谷歌、Netflix用GPU來搭建人工智慧的神經網路,Facebook、Amazon、Salesforce都擁有了基於GPU的雲端計算能力,國內的科大訊飛也採用了GPU叢集支援自己的語音識別技術。GPU的這一優勢被發現後,迅速承載起比之前的圖形處理更重要的使命:被用於人工智慧的神經網路,使得神經網路能容納上億個節點間的連線。傳統的CPU叢集需要數週才能計算出擁有1億節點的神經網的級聯可能性,而一個GPU叢集在一天內就可完成同一任務,效率得到了極大的提升。另外,GPU隨著大規模生產帶來了價格下降,使其更能得到廣泛的商業化應用。

2.3.2 大資料訓練可以有效提高人工智慧水平

機器學習是人工智慧的核心和基礎,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域。該領域的頂級專家Alpaydin先生如此定義:“機器學習是用資料或以往的經驗,以此優化計算機程式的效能標準。”

我們已經進入到大資料時代,來自全球的海量資料為人工智慧的發展提供了良好的條件。


根據IDC的監測統計,2011年全球資料總量已經達到1.8ZB(1ZB等於1萬億GB,1.8ZB也就相當於18億個1TB的行動硬碟,人均200GB,這些資訊的量相當於可以填充572億個32GB的iPad),而這個數值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的資料量,增長近20倍。

2.3.3 “深度學習”技術的出現

“深度學習”是機器學習研究中的一個新的領域,它模擬人類大腦神經網路的工作原理,將輸出的訊號通過多層處理,將底層特徵抽象為高層類別,它的目標是更有效率、更精確地處理資訊。深度學習自2006年由Geoffrey

Hinton教授和他的兩個學生被提出後,使得機器學習有了突破性的進展,極大地推動了人工智慧水平的提升。2013年,《麻省理工技術評論》把它列入年度十大技術突破之一。


人腦具有一個深度結構,認知過程是逐步進行,逐層抽象的,能夠層次化地組織思想和概念。深度學習之所以有如此大的作用,正是因為它較好地模擬了人腦這種“分層”和“抽象”的認知和思考方式。

深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練資料,來學習更有用的特徵,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特徵學習”是目的。區別於傳統的淺層學習,深度學習的不同在於:1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節點;2)明確突出了特徵學習的重要性,也就是說,通過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。與人工規則構造特徵的方法相比,利用大資料來學習特徵,更能夠刻畫資料的豐富內在資訊。

深度學習使得人工智慧在幾個主要領域都獲得了突破性進展:在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(Gaussian MixtureModel,GMM),獲得了相對30%左右的錯誤率降低;在影象識別領域,通過構造深度卷積神經網路(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網路結構,進一步降低到11%;在自然語言處理領域,深度學習基本獲得了與其他方法水平相當的結果,但可以免去繁瑣的特徵提取步驟。可以說到目前為止,深度學習是最接近人類大腦的智慧學習方法。

深度學習引爆了一場革命,將人工智慧帶上了一個新的臺階,將對一大批產品和服務產生深遠影響。

2.3.4 “人腦”晶片將從另一個方向開啟人工智慧的大門

前面提到了現代計算機的馮·諾依曼體系結構阻礙了大規模平行計算的實現,導致人工智慧發展受限。而今天人工智慧發展面臨突破,除了上文說的雲端計算、大資料、深度學習三個原因之外,另外一個方向的努力也是不容忽視的,那就是徹底改變了馮·諾依曼體系結構的“人腦”晶片。


“人腦”晶片,也叫神經形態晶片,是從硬體方向對人腦物理結構的模擬。這種晶片把數字處理器當作神經元,把記憶體作為突觸,跟傳統·馮諾依曼結構不一樣,它的記憶體、CPU和通訊部件是完全整合在一起,因此資訊的處理完全在本地進行。而且由於本地處理的資料量並不大,傳統計算機記憶體與CPU之間的瓶頸不復存在了。同時神經元之間可以方便快捷地相互溝通,只要接收到其他神經元發過來的脈衝(動作電位),這些神經元就會同時做動作。

3. 人工智慧產業發展加速明顯

技術“奇點”的到來使得人工智慧發展明顯加速,這從產業層面能夠得到有力的佐證:我們已經能夠看到IT業對人工智慧的投入顯著加大,新型的應用或產品也不斷問世。

3.1 國際IT巨頭頻頻放“大招”

IT領域的國際巨頭近年來在人工智慧領域頻頻發力,一方面網羅頂尖人才,一方面加大投資力度,這也昭示著人工智慧新的春天已經到來。

2013年3月,谷歌以重金收購DNNresearch的方式請到了Geoffrey Hinton教授(上文提到的深度學習技術的發明者);2013年12月,Facebook成立了人工智慧實驗室,聘請了卷積神經網路最負盛名的研究者、紐約大學終身教授Yann LeCun為負責人;2014年5月,有“谷歌大腦之父”美稱的Andrew NG(吳恩達)加盟百度,擔任首席科學家,負責百度研究院的領導工作,尤其是“百度大腦”計劃。這幾位人工智慧領域泰斗級人物的加入,充分展示了這些網際網路巨頭對人工智慧領域志在必得的決心。


根據量化分析公司Quid的資料,自2009年以來,人工智慧已經吸引了超過170億美元的投資。僅去年一年,就有322家擁有類似人工智慧技術的公司獲得了超過20億美元的投資。自2013年以來,Yahoo、Intel、Dropbox、LinkedIn、Pinterest以及Twitter也都收購了人工智慧公司。過去四年間,人工智慧領域的民間投資以平均每年62%的增長速率增加,這一速率預計還會持續下去。

3.2 新的AI應用和產品屢有驚喜


1 自然語言處理(NLP)

微軟SkypeTranslator同聲傳譯

Skype Translator

是由Skype和微軟機器翻譯團隊聯合開發,整合了微軟Skype語音和聊天技術、機器翻譯技術、神經網路語音識別打造了一款面向消費者使用者的產品,2014年5月在微軟Code大會上推出。兩個不同語種的人藉助SkypeTranslator可實現無障礙交談,當你說出一個完整的句子後,系統便會開始進行記錄翻譯,對方即可聽到翻譯後的句子,並可通過字幕顯示在螢幕上。這個實時語音翻譯系統能夠識別不同使用者間的不同語言不同口音的說話方式。

目前,Skype Translator還處在早期開發階段,但這一實時語音翻譯功能有可能幫助改變世界未來的交流方式。比如線上教育,2014年12月,微軟正式推出了SkypeTranslator預覽版,讓來自美國和墨西哥的小學生使用各自母語就能進行語音通話。它可以識別美國小學生的英文語句並將其翻譯為西班牙語,然後以文字的形式呈獻給墨西哥小學生,反之亦然。微軟計劃將Skype Translator服務推向教育領域,如此一來全世界各地的學生都能無障礙聆聽任何語言的課程,顯然這對於促進全球教育進步有著非比尋常的意義。

2 計算機視覺(CV)

(1)格靈深瞳的智慧視訊監控系統

在安防領域,攝像頭已經得到大規模的使用,但監控的有效性依然面臨兩個嚴峻的挑戰:

1、攝像頭只能起到記錄功能,識別還要依靠人眼,真正能實時監控到的場景非常有限:一個像機場大小的公共場所,攝像頭的數量能夠達到幾萬臺,而同一時間負責監控視訊的安保人員大概只有幾個人;此外,視訊監控往往都採用畫面輪播機制,每過一定時間自動切換螢幕上顯示的監控視訊畫面。所以,那些真正有資訊價值的畫面被人看到、注意到的機率就很小。

2、難以有效查詢歷史記錄。據估計全球監控視訊記錄的儲存已經消耗了75%的硬碟資源,以某廣場為例,每天產生的監控視訊資料,刻成光碟摞起來,甚至超過埃菲爾鐵塔的高度。要在如此龐大的資料庫裡依靠人眼尋找某個特定畫面或犯罪嫌疑人,需要動用大量的人力資源,並且效率低下。

格靈深瞳是一家專注於開發計算機視覺的人工智慧公司,致力於讓計算機像人一樣主動獲取視覺資訊並進行精確的實時分析。公司成立於2013年初,成立不久就獲得真格基金和聯創策源的天使投資,並於2014年6月獲得紅杉資本數千萬美元的A輪投資。

格靈深瞳通過研發三維視覺感知技術,實現對人物的精確檢測、跟蹤,對動作姿態(包括暴力、跌倒等危險行為)和人物運動軌跡(包括越界、逆行、徘徊等可疑軌跡)的檢測和分析。在自動場景和人物檢測的基礎上,自動給安保人員提供預警訊號,主動提醒、報告異常,保障安保人員“看得到”。同時,格靈深瞳利用感知技術抽象出人物的特徵,從非時間的維度進行監測、跟蹤、搜尋,真正做到“找得到”。

目前格靈深瞳的視訊監控系統已經在對安防要求較高的銀行進行應用測試。如果該技術投入大規模商業化應用,將有效改善上文提到的現有視訊監控的缺陷,是人工智慧改變世界邁出的非常積極的一步。

(2)Face++的人臉識別雲服務

Face++是一個人臉識別雲服務平臺,通過它提供的開放服務,開發者可以低成本的在自己的產品中實現若干面部識別功能。開發者和合作方通過Face++提供的API接入和離線引擎就可以享受現成的人臉檢測、分析和識別等服務。Face++人臉識別技術主要有以下幾種基本功能:

1)人臉檢測:從圖片中快速、準確的找到所有的或者有某些特徵的臉。

2)人臉分析:通過人臉,對人的性別、年齡、情緒的資訊進行提取。

3)人臉識別:匹配給定人臉的相似性,或者從成萬上億的人臉資料庫中搜索、返回最相似的人臉索引。

Face++為美圖秀秀、美顏相機App提供諸如:人臉檢測、人臉追蹤、關鍵點檢測技術,可精準定位人臉中需要美化的位置,實現精準自動人臉美化,但這些僅是人臉識別的初級階段。此外在稍高階的應用階段——搜尋領域,Face++所做的人臉識別為世紀佳緣提供服務,使用者可根據自己對另一半長相的需求去搜索相似外貌的使用者,當然這個搜尋需要在資料庫中進行,可以是世紀佳緣的資料庫、未來可以是社交網路上的資料庫、更可以是在通用搜索引擎中。第二個是Face++與360搜尋達成了合作,在360的圖片搜尋中使用到相關的技術。而在另一塊安全領域,Face++推出了APP“雲臉應用鎖”,掃描一下人臉和設定一下備用密碼,就可以將需要加密的應用新增到需要保護的應用程式中。這樣開啟加密的應用時,就要事先經過一個人臉識別的監測,才能成功開啟此應用。非常適合於圖片、資訊、支付軟體等等擁有私密資訊較高的應用程式當中。

3 知識表示、規劃和決策

(1)Palantir:CIA的反恐祕密武器

大資料探勘分析公司Palantir成立於2004年,該平臺把人工智慧演算法和強大的引擎(可以同時掃描多個數據庫)整合,可以同時處理大量資料庫,並允許使用者通過多種方式快速瀏覽相關資訊。其產品已被美國中情局(CIA)、聯邦調查局(FBI)、海陸空三軍、聯邦檢察官、私人調查機構及其他客戶所使用。類似CIA和FBI這樣的情報機構有成千上萬個數據庫,並記錄著不同的資料,比如財務資料、DNA樣本、語音資料、錄影片段以及世界各地的地圖。將這些資料建立聯絡需要數年的時間,即便統一在一起,也很難駕馭不同種類的資料,比如說如何關聯銷售資料和監控錄影資料,而Palantir公司所做的就是開發軟體使這一切變得更容易。同時,Palantir還對各種安全問題高度敏感。Palantir引發了計算機時代的一場革命,它梳理所有可以獲得的資料庫,對相關資訊進行確認,並他們整合起來。Palantir成立之初就獲的CIA基金公司In-Q-Tel的投資,現在成為了美國情報機關在反恐戰爭不能缺少的工具。Palantir有效的解決了911後對情報工作提出的技術難題:如何從大量的資料中快速獲取有價值的線索,可以說是CIA的反恐祕密武器。

Palantir公司相當低調,但非常受政府情報機關和華爾街的熱捧。除了反恐,其關注重點也開始轉向醫療、零售、保險和生物科技,比如利用Palantir可以偵查醫療保險詐騙以及發現病毒爆發的源頭。現在,Palantir年收入已超過10億美元,並且每年以3倍的速度增長。

(2)IBM Watson:認知能力強勁的多面手

Watson由90臺IBM伺服器、360個計算機晶片驅動組成,是一個有10臺普通冰箱那麼大的計算機系統。它擁有15TB記憶體、2880個處理器、每秒可進行80萬億次運算。IBM為沃森配置的處理器是Power

7系列處理器,這是當前RISC(精簡指令集計算機)架構中最強的處理器。Watson儲存了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數百萬份資料。每當讀完問題的提示後,Watson就在不到三秒鐘的時間裡對自己長達2億頁的料裡展開搜尋。Watson是基於IBM“DeepQA”(深度開放域問答系統工程)技術開發的,DeepQA技術可以讀取數百萬頁文字數 據,利用深度自然語言處理技術產生候選答案,根據諸多不同尺度評估那些問題。IBM研發團隊為Watson開發的100多套演算法可以在3秒內解析問題,檢索數百萬條資訊然後再篩選還原成“答案”輸出成人類語言。每一種演算法都有其專門的功能。

IBM公司自2006年開始研發沃森,並在2011年2月的《危險地帶》(Jeopardy!)智力搶答遊戲中一戰成名後,其商業化應用有著清晰的脈絡:2011年8月沃森開始應用於醫療領域;2012年3月,沃森則首次應用於金融領域,花旗集團成為了沃森的首位金融客戶,沃森幫助花旗分析使用者的需求,處理金融、經濟和使用者資料以及實現數字銀行的個性化,並幫助金融機構找出行業專家可能忽略的風險、收益以及客戶需求。美國農業銀行信貸證券公司的一份研究報告中預測,Watson在2015年將為IBM帶來26.5億美元的收入。

例如在醫療領域,Watson已收錄了腫瘤學研究領域的42種醫學期刊、臨床試驗的60多萬條醫療證據和200萬頁文字資料。Watson能夠在幾秒之內篩選數十年癌症治療歷史中的150萬份患者記錄,包括病歷和患者治療結果,併為醫生提供可供選擇的循證治療方案。目前癌症治療領域排名前三的醫院都在執行Watson。研究表明,醫療資訊資料正以每五年翻番的高速度增長。這為將下一代認知計算系統運用於醫療行業以改善醫學的教學、實踐和支付模式提供了史無前例的商機。

4. 人工智慧生態格局展望:巨頭與新貴共舞

4.1 人工智慧將催生新一輪IT商業模式創新

自從PC網際網路時代以來,到移動網際網路,再到智慧硬體時代,技術發展和商業模式創新一直處於相輔相成的狀態中,一旦技術進步的紅利被商業模式創新挖掘殆盡後,面臨泡沫破裂的風險,直到下一輪技術革命浪潮再來,商業模式創新才會春風吹又生。


我們認為,移動網際網路時代,萬物互聯催生出了海量的資料,觸控式螢幕的互動方式已經滿足不了使用者多元化的輸入方式,商業模式創新已經遭遇了技術無法支撐的瓶頸,如果人工智慧技術突破,無疑將催生出新的商業模式,帶來巨大的市場想象空間。

現階段移動網際網路的商業模式創新已經將web2.0時代的技術紅利消耗殆盡,未來新的商業模式的開發需要技術進步的支撐,人工智慧是重要的技術突破點。

4.2 AI產業格局成形的路徑:“底層—中層—頂層”的生態圈逐步清晰

人工智慧發展的拐點已經到來,但需要指出的是,由於技術的複雜性,發展不會一蹴而就,必然經歷一個由點到面,由專用領域(domain)到通用領域(generalpurpose)的歷程,通用領域的人工智慧實現還比較遙遠。

我們以計算機視覺的應用為例,正常的成年人可以很容易地識別照片或視訊裡的多種場景和人、物,但對於計算機來說還難以做到。原因是識別是一個特徵抽取的過程,而特徵抽取是建立在識別模型的基礎之上的,要做到通用識別,則必須對世間萬物都建立一一對應的模型,工作量極大。而即使是同一事物,由於光線、角度、距離的原因,在不同的場景裡也會呈現出很大的差異,這進一步增加了建立識別模型的難度。短期內計算機的運算能力(即使是超級運算平臺)還難以望人腦視覺中樞的項背,因此無法達成這一願景。

在未來5-10年之內,專用領域的定向智慧化將是AI主要的應用發展方向。在更遠的將來,如果人腦晶片等硬體架構能有所突破,運算能力有極大提高,則專用智慧將逐步進化成為跨場景跨下游應用的通用智慧。而AI的生態格局,無論是專用還是通用領域,我們認為都將圍繞“底層-中層-頂層”的技術和產品架構逐漸成形。


人工智慧產業生態格局的三層基本架構如下:

底層為基礎資源支援層,由運算平臺和資料工廠組成;

中層為AI技術層,通過不同型別的演算法建立模型,形成有效的可供應用的技術;

頂層為AI應用層,利用中層輸出的AI技術為使用者提供智慧化的服務和產品。

每一層架構中,都有不同的企業參與,最終形成圍繞AI技術,產品和服務的生態圈。

4.2.1專用領域人工智慧生態圈的格局

1、基礎資源支援層實現路徑:運算平臺+資料工廠

基礎資源支援層通過部署大規模GPU與CPU平行計算構成的雲端計算資源池(定義為超級運算平臺)來解決AI所需要的超強儲存和運算處理能力問題,並輔以能夠抓取到匯聚了人類智慧的海量資訊的大資料工廠作為資料集,為AI技術層的實現提供有利支援。

超算平臺負責儲存與運算。人類沒有記憶就沒有關聯,也更不用說決策與創造,而構成記憶的基礎正是有極大儲存能力的腦容量,那麼機器要模仿人腦也必然首先要擁有龐大的儲存能力,海量資料的積累最終讓機器的“儲存”形成類似於人類的“記憶”。

百度在發展人工智慧的道路上,首先做的也是不斷擴大其儲存能力。

除了儲存的絕對容量之外,運算處理能力是第二個需要提升的硬實力。


運算處理能力有兩個方面,第一是伺服器規模,第二是特徵向量大小。所謂特徵向量簡單理解的話就是指將文字語音影象視訊等內容轉化為機器能夠讀懂的一連串關鍵資料,資料越多,機器學習的就會越好,但對伺服器的壓力也會相應加大。百度能夠僅用兩年時間從10萬特徵向量直接飆升到200億,足以見得百度伺服器技術實力的雄厚。在這個過程中,還需要解決大規模GPU和CPU平行計算所帶來的錯誤率提升以及散熱難度加大等問題,因此,是否能夠搭建超算平臺成為了人工智慧企業的重要進入門檻。

資料工廠實現分類與關聯。資料工廠會對資料進行基礎性的加工,而這種加工又非常關鍵。從人類的記憶聯想模式分析,要調取某部分的記憶,就會很自然的聯想到某個詞,某個畫面,某個音樂等等就能記起很多事情。這是因為人類大腦的神經連線結構允許我們這樣去檢索,而機器是不允許的,資料儲存在硬碟上,機器想要找到某個資料,必須一個個訪問過去,機器沒有分類的概念。如果需要機器理解使用者的語言,這種搜尋技術也依然要機器的大腦配合才能達到,對每一個詞的定義應該是一個庫,而這個庫中的每一個詞又都各自構成庫,資料工廠所依託的搜尋演算法,就是在這麼一個數據海洋中去為他們建立管理,然後去索引。資料工廠相當於人腦中的記憶關聯過程:將某個詞同時與其他詞或是某個場景等等建立起動態關聯的過程。因此,通過資料探勘和搜尋演算法對資料工廠中的知識庫和資訊庫進行分類與關聯的技術能力同樣是人工智慧企業的重要進入門檻。

2、AI技術層實現路徑:面向特定場景的智慧技術多姿多彩

AI技術層的作用是基於底層提供的計算儲存資源和大資料,通過機器學習建模,開發面向不同領域的應用技術,例如語音識別、語義識別和計算機視覺等。

中間層的執行機制和人類的思維形成過程高度相似,是從感知到思考再到最終的決策行動甚至是創造,核心是機器學習技術的應用。首先,感知環節需要連線的是人、資訊和物理世界,通過感測器,搜尋引擎和人機互動來獲取建模必須的資料,相當於人類的感知過程。依託於底層的高效能運算和彈性儲存能力,中間層對感知到的資料進行建模運算,相當於人類的思考過程。最終,應用層利用資料擬合出的模型結果,對智慧應用的服務和產品端輸出指令,指揮包括機器人、無人機、3D列印等在內的各種裝置響應使用者需求。儘管目前由於思考層面的計算儲存能力和建模能力的不足,導致人工智慧還無法達到和人類相接近的“智慧”程度,但也足以支撐包括語音識別、影象識別和知識圖譜在內的各種AI技術在特定場景下的應用。


另外一方面,在具體的應用場景中,更為優化的演算法和更為準確的背景知識庫資料集等因素都有助於在不提升計算資源的前提下實現更優的結果。這就給眾多專業領域的AI公司帶來了巨大的市場機遇。我們看到,專用智慧的商業化應用風生水起,在這個領域,巨頭和新貴都處於同一起跑線上,產業格局會趨於分散,先入者優勢明顯。我們判斷,在資料、演算法、雲端計算資源等幾個關鍵因素中,資料的獲得以及演算法的優化是先入者的護城河,能夠幫助他們在專用領域的特定場景下,迅速實現AI的商業化應用,從而搶佔市場。我們關注到國內市場已經出現了這樣的局面:語音識別領域的科大訊飛、計算機視覺方面的格靈深瞳、語義識別方面的小i機器人、人臉識別方面的face++等等細分行業龍頭,都在具體應用場景的技術結果上,實現了對百度、谷歌、微軟和IBM等AI巨頭的超越。


3、AI應用層實現路徑:以Nest為代表的專用智慧產品和服務風起雲湧

專用智慧的應用水平不斷提升將推進智慧產品和服務的智慧化程度。為了能夠滿足使用者