1. 程式人生 > >大資料和人工智慧行業研究淺析

大資料和人工智慧行業研究淺析

一、大資料和人工智慧

大資料是伴隨著資訊資料爆炸式增長和網路計算技術迅速發展而興起的一個新型概念。根據麥肯錫全球研究所的定義,大資料是一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。大資料能夠幫助各行各業的企業從原本毫無價值的海量資料中挖掘出使用者的需求,使資料能夠從量變到質變,真正產生價值。隨著大資料的發展,其應用已經滲透到農業、工業、商業、服務業、醫療領域等各個方面,成為影響產業發展的一個重要因素。

當前人們所說的人工智慧,是指研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術以及應用系統的一門新的技術科學,是由人工製造出來的系統所表現出來的智慧。

 

本人對於大資料學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習大資料。歡迎各位到來大資料學習群:868847735 一起討論視訊分享學習。大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大資料核心技術,才是掌握真正的價值所在。
 

 

傳統人工智慧受制於計算能力,並沒能完成大規模的平行計算和並行處理,人工智慧系統的能力較差。2006年,Hinton教授提出“深度學習”神經網路使得人工智慧效能獲得突破性進展,進而促使人工智慧產業又一次進入快速發展階段。“深度學習”神經網路主要機理是通過深層神經網路演算法來模擬人的大腦學習過程,通過輸入與輸出的非線性關係將低層特徵組合成更高層的抽象表示,最終達到掌握運用的水平。資料量的豐富程度決定了是否有充足資料對神經網路進行訓練,進而使人工智慧系統經過深度學習訓練後達到強人工智慧水平。因此,能否有足夠多的資料對人工神經網路進行深度訓練,提升演算法有效性是人工智慧能否達到類人或超人水平的決定因素之一。

 

隨著移動網際網路的爆發,資料量呈現出指數級的增長,大資料的積累為人工智慧提供了基礎支撐。同時受益於計算機技術在資料採集、儲存、計算等環節的突破,人工智慧已從簡單的演算法+資料庫發展演化到了機器學習+深度理解的狀態。

 

二、人工智慧產業及生態

按產業鏈結構劃分,人工智慧可以分為基礎技術層、AI技術層和AI應用層。基礎技術層主要聚焦於資料資源、計算能力和硬體平臺,資料資源主要是各類大資料,硬體資源包括晶片研發、儲存裝置開發等。AI技術層著重於演算法、模型及可應用技術,如計算智慧演算法、感知智慧演算法、認知智慧演算法。AI應用層則主要關注將人工智慧與下游各領域結合起來,如無人機、機器人、虛擬客服、語音輸入法等。

圖1 人工智慧產業鏈

大資料和人工智慧行業研究淺析

資料來源:中國產業資訊網,《2017年中國人工智慧行業發展概況及未來發展趨勢分析》

(一)基礎技術層

1.1 大資料

資料資源是機器學習訓練的基本素材,通過對於資料的學習,機器能不斷積累經驗和優化決策引數,逐漸變得更貼近人類智慧。

從資料流動方向的角度來看,大資料的產業鏈可分為底層平臺、處理分析、應用三個層次。底層平臺由基礎設施與資料資產池構成,主要提供資料採集、分享和交易服務,處理分析則是在原始資料的基礎上對資料進行清洗後以不同方式呈現。在資料處理分析的基礎之上,挖掘各行業的資料需求,最終為使用者提供服務。

 

根據資料應用程度不同,大資料產業鏈下各參與方功能可細分為資料標準與規範化、資料採集、資料安全、資料儲存與管理、資料分析與挖掘、資料運維和資料運用七個方面。

 

1.2 計算能力和硬體平臺

資料資源、核心演算法、運算能力是人工智慧的三大核心要素。隨著全球移動網際網路和物聯網等快速發展,人類可獲取利用的資料正以爆炸式增長。海量的大資料通過最新的深度學習技術將為人工智慧的發展與應用帶來難以估量的價值,而運算能力提升是人工智慧發展的前提保障。其中,晶片是運算能力的核心。

 

 

就目前而言,AI 晶片主要型別有GPU、FPGA、ASIC和類人腦晶片四種。

1.2.1 GPU

1.2.1.1 GPU簡介

GPU 即圖形處理器,最初是用來做影象運算的微處理器。GPU 優化和調整了CPU 結構,使其運算速度突飛猛進,擁有了更強大的處理浮點運算的能力。2009 年,斯坦福大學的吳恩達及其團隊發現GPU 晶片可以並行執行神經網路。用GPU來執行機器學習模型,同樣的大訓練集,GPU在耗費功率更低、佔用基礎設施更少的情況下能夠支援遠比單純使用CPU時10-100倍的應用吞吐量。因此GPU已經成為資料科學家處理大資料的處理器。

 

1.2.1.2 GPU行業現狀

目前國際GPU市場被NVIDIA 和AMD 兩大公司瓜分,全球GPU 行業的市場份額有超過70%被NVIDIA佔據,而應用在人工智慧領域的可進行通用計算的GPU 市場則基本被NVIDIA壟斷。目前公司已與谷歌、微軟、IBM、豐田、百度等多家嘗試利用深度神經網路來解決海量複雜計算問題的企業建立和合作關係。NVIDIA與下游客戶在深度學習領域的合作不斷加深,已經開發出多款針對深度學習的GPU產品。從產品成熟度、生態圈的規模角度而言,NVIDIA的GPU 已具備統治性的地位。

中國在GPU晶片設計領域起步較晚,目前只有景嘉微和兆芯兩家掌握核心技術的公司正在逐步打破國外晶片在我國GPU市場的壟斷局面,但產品還是主要用於GPU最初的圖形顯控領域,距人工智慧所需要的GPU技術還有很遠的距離。

1.2.2 FPGA

1.2.2.1 FPGA簡介

FPGA,即場效可程式設計邏輯閘陣列,最初是從專用積體電路上發展起來的半定製化的可程式設計電路,FPGA 還具有靜態可重複程式設計和動態在系統重構的特性,使得硬體的功能可以像軟體一樣通過程式設計來修改,不同的程式設計資料在同一片FPGA上可以產生不同的電路功能,具有很強的靈活性和適應性。

FPGA 和GPU 內都有大量的計算單元,因此它們的計算能力都很強。在進行神經網路運算的時候,兩者的速度會比CPU 快很多。但是GPU 由於架構固定,硬體原生支援的指令也就固定了,而FPGA 則是可程式設計的。其可程式設計性是關鍵,因為它讓軟體與終端應用公司能夠提供與其競爭對手不同的解決方案,並且能夠靈活地針對自己所用的演算法修改電路。與GPU相比,FPGA具有效能高、能耗低及可硬體程式設計的特點。

1.2.2.2 FPGA行業現狀

目前FPGA 整個市場被國外的兩大巨頭所寡佔,據東方證券研究所資料顯示,Xilinx 和Altera 佔了近90%的份額,合計專利達到6000多項,剩餘份額被Lattice和Microsemi兩家佔據,兩家專利合計共有超過3000項。技術專利的限制和漫長的開發週期使得FPGA行業有著極高的壁壘。

儘管我國政府多年來在此領域投入了數百億的科研經費,但FPGA的專利限制及技術門檻使得中國FPGA的研發之路十分艱辛,國內如同創國芯、京微雅格、高雲等公司在FPGA研發方面已獲得一定進展,但產品效能、功耗、容量和應用領域上都同國外先進技術存在著較大差距。當前國內部分資本已經試圖走出國門,通過併購半導體類公司的方法進入FPGA的行業,實現彎道超車。

1.2.3 ASIC

1.2.3.1 ASIC簡介

ASIC,即專用積體電路,是指應特定使用者要求或特定電子系統的需要而設計、製造的積體電路。ASIC 作為積體電路技術與特定使用者的整機或系統技術緊密結合的產物,與通用積體電路相比,具有以下幾個方面的優越性:體積更小、功耗更低、可靠性提高、效能提高、保密性增強。FPGA一般來說比ASIC的速度要慢,而且無法完成更復雜的設計,並且會消耗更多的電能,因此就算力而言ASIC遠優於FPGA;但ASIC的專用特點使得其生產成本很高,如果出貨量較小,則採用ASIC在經濟上不太實惠。一旦人工智慧技術成熟,ASIC專用整合的特點反而會達到規模效應,較通用積體電路而言,成本大大降低。

當前ASIC 在人工智慧深度學習方面的應用還不多,但是我們可以拿比特幣礦機晶片的發展做類似的推理。比特幣挖礦和人工智慧深度學習有類似之處,都是依賴於底層的晶片進行大規模的平行計算。比特幣礦機的晶片經歷了四個階段:CPU、GPU、FPGA 和ASIC。其中ASIC 在比特幣挖礦領域,展現出了得天獨厚的優勢。隨著人工智慧越來越多的應用在各個領域並表現出優越的效能,長期來看ASIC大有可為。

1.2.3.2 ASIC市場現狀

隨著人工智慧的興起,科技巨頭紛紛佈局晶片製造。高通、AMD、ARM、Intel和NVIDIA都在致力於將定製化晶片整合進它們的現有解決方案中。Nervana 和 Movidius(目前都在Intel旗下)據說正在開發集合方案。ASIC中較為成熟的產品是谷歌針對AlphaGo研發的TPU。第一代TPU產品由谷歌在2016年I/O大會上正式推出,今年5月的開發者I/O大會上,谷歌正式公佈了第二代TPU,又稱Cloud TPU,相較於初代TPU,既能用於訓練神經網路,又可以用於推理,浮點效能方面較傳統的GPU提升了15倍。

ASIC在人工智慧領域的應用起步較晚,國內外水平相差不大。目前國內已有數家公司致力於人工智慧相關ASIC晶片研究,代表公司為地平線機器人、中科寒武紀與中星微電子。其中地平線機器人公司作為初創企業,致力於打造基於深度神經網路的人工智慧“大腦”平臺-包括軟體和晶片,可以做到低功耗、本地化的解決環境感知、人機互動、決策控制等問題。其關於晶片的研發目前還未成熟。中科寒武紀和中星微電子則已經有了相對成熟的產品。寒武紀晶片專門面向深度學習技術,研製了國際首個深度學習專用處理器晶片NPU,目前已研發的三款晶片分別面向神經網路的原型處理器結構、大規模神經網路和多種機器學習演算法,預計將於2018年實現晶片的產業化。中星微電子於2016年6月推出中國首款嵌入式神經網路處理器(NPU)晶片,這是全球首顆具備深度學習人工智慧的嵌入式視訊採集壓縮編碼系統級晶片。這款基於深度學習的晶片運用在人臉識別上,最高能達到98%的準確率,超過人眼的識別率。該晶片於2017年3月6日實現量產,截止到今年5月出貨量為十幾萬件。

1.2.4 類人腦晶片

1.2.4.1 類人腦晶片簡介

類人腦晶片是一種基於神經形態工程、借鑑人腦資訊處理方式,旨在打破“馮·諾依曼”架構束縛,適於實時處理非結構化資訊、具有學習能力的超低功耗新型計算晶片。從理論上來看,類人腦晶片更加接近於人工智慧目標的晶片,力圖在基本架構上模仿人腦的工作原理,使用神經元和突觸的方式替代傳統架構體系,使晶片能夠進行非同步、並行、低俗和分散式處理資訊資料的能力,同時具備自護感知、識別和學習的能力。

1.2.4.2 類人腦晶片市場現狀

類人腦晶片是人工智慧晶片發展的重點方向。目前各國政府及科技巨頭都在大力推動類人腦晶片的研發程序,包括美國、日本、德國、英國、瑞士等發達國家已經制定相應的發展戰略,中國的類人腦科學研究專案目前也已經正式啟動。當前世界上已有一批科技公司走在前列,在類人腦晶片研發中取得了突破,代表產品包括IBM的TrueNorth晶片、高通Zeroth晶片、谷歌的“神經網路圖靈機”等。

(二)AI技術層

AI技術層主要著眼於演算法、模型及可應用技術。按照智慧程度不同,人工智慧可分為運算智慧、感知智慧、認知智慧三個階段。運算智慧,即快速計算和記憶儲存能力,在這一階段主要是演算法與資料庫相結合,使得機器開始像人類一樣會計算和傳遞資訊; 感知智慧,即視覺、聽覺、觸覺等感知能力,在這一階段,資料庫與淺層學習演算法結合,使得機器開始看懂和聽懂,並做出判斷、採取行動;認知智慧,即能理解會思考的能力,這一階段主要是採用深度學習演算法,使得機器能夠像人一樣思考,主動採取行動。

 

AI技術層可以分為框架層和演算法層,其中框架層指TensorFlow,Caffe,Theano,Torch,DMTK,DTPAR,ROS等框架或作業系統,演算法層指的是對資料的處理方法。

根據資料型別的不同,對一個問題會採用不同的建模方式,即學習方式。按照學習方式來分類,人工智慧演算法可以分為傳統機器學習和神經網路演算法,其中傳統機器學習又可細分為監督式學習、非監督式學習、半監督式學習、強化學習。

2.1 傳統機器學習

2.1.1 監督式學習

在監督式學習下,輸入資料被稱為“訓練資料”,每組訓練資料有一個明確的標識或結果,如對防垃圾郵件系統中“垃圾郵件”“非垃圾郵件”,對手寫數字識別中的“1“,”2“,”3“,”4“等。在建立預測模型的時候,監督式學習建立一個學習過程,將預測結果與“訓練資料”的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。監督式學習的常見應用場景如分類問題和迴歸問題。常用演算法有迴歸演算法、樸素貝葉斯、SVM等。

2.1.2 非監督式學習

在非監督式學習中,資料並不被特別標識,學習模型是為了推斷出資料的一些內在結構。常見的應用場景包括關聯規則的學習以及聚類等。關聯規則學習的常見演算法主要為Apriori演算法及其拓展演算法,聚類的常用演算法有k-Means演算法及其相似演算法。

2.1.3 半監督式學習

在此學習方式下,輸入資料部分被標識,部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習資料的內在結構以便合理的組織資料來進行預測。應用場景包括分類和迴歸,演算法包括一些對常用監督式學習演算法的延伸,這些演算法首先試圖對未標識資料進行建模,在此基礎上再對標識的資料進行預測。如圖論推理演算法(Graph Inference)或者拉普拉斯支援向量機(Laplacian SVM.)等。

2.1.4 強化學習

在此學習模式下,輸入資料作為對模型的反饋,不像監督模型那樣,輸入資料僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入資料直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態系統以及機器人控制等。常見演算法包括Q-Learning以及時間差學習(Temporal difference learning)。

2.2 神經網路

人工神經網路是模擬生物神經網路,由眾多的神經元可調的連線權值連線而成,具有大規模並行處理、分散式資訊儲存、良好的組織學習能力特點,並通過一定學習準則進行學習,進而建立相關模型,解決一定工作。在人工神經網路的學習演算法設計方面,一般對人工神經網路進行大量的資料訓練和調整,不斷修正各層級節點引數,通過不斷學習使得人工神經網路具有初步的自適應能力和自我組織能力及較強的泛化能力,進而較快適應周邊環境要求,基於其眾多優點,人工神經網路已然成為人工智慧演算法的核心。深度學習演算法是人工神經網路當前最新演算法,其實質是通過很多隱層的機器學習模型和海量的訓練資料來學習更有用的特徵,從而提升分類或預測的準確性。

(三)AI應用層

人工智慧的應用主要是採用了“AI+垂直行業”的方式滲透到傳統各行業,按發展層次的不同可以分為專用人工智慧、通用人工智慧和超級人工智慧三個層次。其中,專用人工智慧以一個或多個專門的領域和功能為主;通用人工智慧即機器與人類一樣擁有進行所有工作的可能,關鍵在於自動地認知和拓展;超級人工智慧是指具有自我意識,包括獨立自主的價值觀、世界觀等,目前僅存在於文化作品構想中。

按應用技術型別進行劃分,人工智慧的應用技術可以分為計算機視覺、機器學習、自然語言處理和機器人四塊。

3.1 計算機視覺

計算機視覺,是指計算機從影象中識別出物體、場景和活動的能力。計算機視覺技術運用由影象處理操作及其他技術所組成的序列來將影象分析任務分解為便於管理的小塊任務目前計算機視覺主要應用在人臉識別、影象識別方面(包括靜態、動態兩類資訊)。

人臉識別,亦叫人像識別、面部識別,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。用攝像機或攝像頭採集含有人臉的影象或視訊流,並自動在影象中檢測和跟蹤人臉,進而對檢測到的人臉進行處理的一系列相關技術。

影象識別,是計算機對影象進行處理、分析和理解,以識別各種不同模式的目標和物件的技術。識別過程包括影象預處理、影象分割、特徵提取和判斷匹配。由於動態監測與識別的技術限制,靜態影象識別與人臉識別的研究暫時處於領先位置。

當前國外科技巨頭自行研發和收購雙管齊下佈局計算機視覺領域,將技術廣泛用於自身產品升級,並基於自身基因打造技術服務平臺和新品類持續提升影響力。中國國內BAT都已紛紛佈局相關領域,並基於自身產品進行功能研發。百度相對更加激進,成立了獨立風投公司,專注於AI早期投資。

除BAT三巨頭外,國內也有不少初創公司涉足計算機視覺技術,主要聚焦於技術應用。其中典型代表當屬曠視科技。公司成立於2012年11月,公司專注於人臉識別技術和相關產品應用研究,面向開發者提供服務,能提供一整套人臉檢測、人臉識別、人臉分析以及人臉3D技術的視覺技術服務,主要通過提供雲端API、離線SDK、以及面向使用者的自主研發產品形式,將人臉識別技術廣泛應用到網際網路及移動應用場景中。Face++通過和眾多網際網路公司合作,並通過“脫敏”技術掌握到了500萬張人臉圖片資料庫,在網際網路圖片人臉識別LFW的準確率達到99.6%,合作伙伴包括阿里、360等一批大型的圖片、社交、裝置類企業。

當前國內計算機視覺創業熱度不斷提高,iiMedia Research(艾媒諮詢)資料顯示, 中國人工智慧創業公司所屬領域分佈中,計算機視覺領域擁有最多創業公司,高達35家。

3.2 機器學習

機器學習是指計算機通過對大量已有資料的處理分析和學習,從而擁有預測判斷和做出最佳決策的能力。其核心在於,機器學習是從資料中自動發現模式,模式一旦被發現便可用於做預測。

機器學習的應用範圍非常廣泛,針對那些產生龐大資料的活動,它幾乎擁有改進一切效能的潛力。除了欺詐甄別之外,這些活動還包括銷售預測、庫存管理、石油和天然氣勘探、以及公共衛生。機器學習技術在其他的認知技術領域也扮演著重要角色,比如計算機視覺,它能在海量影象中通過不斷訓練和改進視覺模型來提高其識別物件的能力。

現如今,機器學習已經成為認知技術中最炙手可熱的研究領域之一,在2011-2014年中這段時間內就已吸引了近十億美元的風險投資。谷歌也在2014年斥資4億美金收購Deepmind這家研究機器學習技術的公司。目前國內機器學習相關企業數量相對較少。BAT在機器學習方面有著先天的優勢,國內初創公司第四正規化是基於機器學習的解決方案提供商。

3.3 自然語言處理

自然語言處理就是用人工智慧來處理、理解以及運用人類語言,通過建立語言模型來預測語言表達的概率分佈,從而實現目標。

自然語言處理技術在生活中應用廣泛,例如機器翻譯、手寫體和印刷體字元識別、語音識別後實現文字轉換、資訊檢索、抽取與過濾、文字分類與聚類、輿情分析和觀點挖掘等。它們分別應用了自然語言處理當中的語法分析、語義分析、篇章理解等技術,是人工智慧界最前沿的研究領域。時至今日AI在這些技術領域的發展已經把識別準確率從70%提高到了90%以上,但只有當準確率提高到99%及以上時,才能被認定為自然語言處理的技術達到人類水平。

在資本與產業助力之下,我國人工智慧的語音識別技術已處於國際領先水平,技術成熟,通用識別率上,各企業均維持在了95%左右的水平。類似百度、科大訊飛等上市公司憑藉深厚的技術和資料積累在市場上佔據前列,且通過軟硬體服務的開發不斷進化著自身的服務能力。在科大訊飛之後釋出國內第二家“語音識別公有云”的雲知聲在各項通用語音服務技術的提供上也佔據著不小的市場空間。除此之外,依託中科院自動化所的紫冬銳意和納象立方以及有著海外背景的蘇州思必馳在教育領域的語音識別上佔據著領先的位置。

 

3.4 機器人

將機器視覺、自動規劃等認知技術整合至極小卻高效能的感測器、致動器、以及設計巧妙的硬體中,這就催生了新一代的機器人,它有能力與人類一起工作,能在各種未知環境中靈活處理不同的任務。

目前世界上至少有48個國家在發展機器人,其中25個國家已涉足服務型機器人開發。在日本、北美和歐洲,迄今已有7種類型計40餘款服務型機器人進入實驗和半商業化應用在服務機器人領域。美國是機器人的發源地,美國的機器人技術在國際上仍一直處於領先地位,其技術全面、先進,適應性十分強,在軍用、醫療、家用服務機器人產業都佔有絕對的優勢,佔服務機器人市場約60%的份額。國內智慧機器人行業的研發主要集中於家庭機器人、工業/企業服務和智慧助手三個方面。其中工業及企業服務類的機器人研發企業依託政策背景和市場需求處於相對領先的發展階段。然而在中國涉足智慧機器人的企業中,從事家庭機器人和智慧助手研發的企業佔據了絕大多數比例。

因為服務一般都要結合特定市場進行開發,本土企業更容易結合特定的環境和文化進行開發佔據良好的市場定位,從而保持一定的競爭優勢;另一方面,外國的服務機器人公司也屬於新興產業,大部分成立的時候還比較短,因而我國的服務機器人產業面臨著比較大的機遇和可發展空間。