1. 程式人生 > >神經網路的前世今生及應用

神經網路的前世今生及應用

本文由微言創新(InnoTalk)授權轉載,作者:金城 復旦大學副教授,博士生導師

AlphaGo、無人駕駛、人臉識別、智慧翻譯……這一個個耳熟能詳的名詞無不預示著人工智慧時代的到來。人工智慧的本質,是對人的思維過程和行為方式的模擬。研究人的認知機理,引入人的神經元概念,勢在必行。

一、什麼是神經網路

  人工智慧領域的一個重要任務是讓計算機能夠像人一樣對輸入的資訊進行判定。比如當計算機讀入一幅影象後,能否判定裡面有沒有蘋果,如果有,蘋果在圖中的哪個位置;當計算機讀入一段語音後,能否判定裡面有沒有提到“中國”二字,如果有,在什麼時間點。正是因為希望模擬人的認知,所以需要通過研究人的認知機理來指導機器提升智慧。

  眾所周知,人對世界的感知和理解主要通過數以億計的神經元來完成,神經元之間彼此連線構成巨大的神經元網路,輸入的訊號(如視網膜上的神經元感受到的光線等)經過一層層的神經元往腦部傳遞,不斷做出決策,再通過一層層的神經元輸出到反饋端(如影響手腳部動作等)。

  圖1 多個神經元彼此連線組成網路

二、神經網路的二次寒冬期

  1943年,邏輯學家Walter Pitts和神經生理學家Warren McCulloch聯合發表文章,首次將神經元概念引入計算領域,提出了第一個人工神經元模型,開啟了神經網路的大門。

  1957年,知名學者Frank Rosenblatt提出了“感知器”(Perceptron)的概念,該概念非常接近神經元的實際機理,通過將多層感知器前後連線,可以構成一個決策網路,從而為神經網路的研究奠定了基石。

  然而好景不長,1969年,被譽為人工智慧之父的Marvin Minsky和Seymour Papert出版《Perceptron》一書探討感知器的優劣,認為僅靠區域性連線的神經網路無法有效地開展訓練,而全連線的神經網路則過於複雜而不實用。更重要的是,限於當時的計算方法與能力,複雜神經網路核心權重引數的計算時長將無法忍受。這些情況影響了學界和業界對神經網路的信心,神經網路的研究陷入了第一次低谷期。

  近二十年後,當代神經網路三巨頭相繼發文,推動了神經網路研究的再次興起。1986年,Geoffrey Hinton和David Rumelhart聯合在Nature上發表論文,將BP演算法用於神經網路模型,實現了對權重引數的快速計算。1990年,Yann LeCun發表文章,採用BP神經網路實現對手寫數字的識別,這可以被視作神經網路的“第一個”重大應用,直到上世紀九十年代末,超過10%的美國支票都採用該技術進行自動識別。

  1998年,Yann LeCun又發文提出了LeNet-5的框架,即現在熱火朝天的卷積神經網路(Convolutional Neural Network)的基本框架。然而卷積要消耗大量計算資源,BP方法又會帶來梯度彌散的問題,從而限制了神經網路的深度和效果。

  相反,俄羅斯學者Vladmir Vapnik在1963年提出的支撐向量機(Support Vector Machine,SVM)概念則不斷深入發展。到2002年,已將手寫數字識別的錯誤率降至0.56%,遠高於同期神經網路的效果。神經網路的研究迎來了第二次寒冬。

三、深度神經網路的興起

  2005年以後,神經網路再一次捲土重來,神經網路迎來了深度神經網路(深度學習)的時代。這主要得益於三個方面的原因:首先,新方法的出現,為神經網路深度的拓展解決了梯度彌散的問題;其次,大量已標註資料的出現,為神經網路的訓練做好了資料準備;最後,GPU(圖形處理器)的使用,為卷積計算提供了高速解決方案。

  2012年,AlexNet橫空出世,在ImageNet上擊潰了傳統的機器學習方法,取得了令人矚目的成績,徹底掀起了深度學習的熱潮,各種深度學習的機制不斷出現,比如可以處理時序資料的Recursive Neural Networks、Long Short Term Memory等。

  與之前兩次神經網路熱潮不同的是,企業界展現了濃厚的興趣,並逐步成為研究的主導者。Google、Facebook、Microsoft、Amazon、IBM等知名國際企業,以及百度、阿里巴巴、騰訊等國內網際網路巨頭均投入了大量人力物力開展深度學習相關的研究,誕生了大量深度學習框架。

四、深度學習的多領域應用

  1、深度學習在多媒體領域的應用

  在語音識別上,針對音素(Phoneme)識別,2009年深度學習的錯誤率為23.0%;而在單詞(Word)識別上,2011年深度學習的錯誤率僅為30.4%;在對話識別上,2014年百度進一步將錯誤率降低到了20%以下。

  在影象識別方面,計算機對影象的識別能力甚至已經超過了人類。圖2-3分別展示了在ImageNet比賽物體識別專案和人臉識別任務上,近年來的進步情況。在Youtube Face DB資料集上,2015年FaceNet(Google)識別率也可達95.12%。此外,在關注度識別、海量影象的分類與識別(淘寶拍立淘應用)、影象描述、人群計數等方面,深度學習都有了突破性進展,或在業界得到了真實應用。

  圖 2 ImageNet比賽物體識別專案Top-5 Error的進步情況

  圖 3人臉識別任務Top-1 Accuracy的進步情況

  在影象處理方面,一款風靡全球的影象類App “Prisma”也應用了深度學習。德國學者Leon A. Gatys等人在2015年提出可以通過深度學習將藝術家的畫風對映到照片上,從而使寫實的照片瞬間成為某個藝術畫派的畫作。

  在自然語言理解上,隨著Word2Vec的適時出現,詞語獲得了更稠密的向量表示方法,其相關性也更容易計算,使得深度學習具備了重要的輸入手段,極大地推動了相關的深度學習應用。

  2、深度學習在其他領域的應用

  深度學習在電力管理、軍事、醫療、智慧製造等多個行業也得到了重要應用。

  例如Google DeepMind的深度學習網路,造就了2016年初火爆的AlphaGo大勝李世石,目前AlphaGo已經在最新的GoRating排名上以3612分超越圍棋名將柯潔(3608分)成為世界第一。最近Google DeepMind還被用於電力管理,操控計算機伺服器和相關裝置(例如冷卻系統)來管理部分資料中心,可降低15%的能耗,每年為Google節省電費1650~2650萬美元。最新資料顯示該節能比例可能高達40%。

  在軍事領域,美國軍方早已開展相關研究與應用。2009年DARPA(美國國防部先進研究專案局)已著手撰寫相關報告,2010年起開始資助相關專案。2012年的DEFT專案和2015年的TRACE專案即分別針對海量文字的資料分析和影象中的目標識別。

  在醫療領域,深度學習已經在DNA分析、癌症預測等方面產生重要影響。如普林斯頓大學的DeepSEA可預測重要調控位點對單核苷酸變異的影響,哈佛大學的Basset可預測單核苷酸多型性對染色質可接近性的影響,多倫多大學的DeepBind 能發現RNA與DNA上的蛋白結合位點,預測突變的影響。

  在智慧製造領域,Google在2016年以14臺機械臂,80萬次抓取作為訓練,可實現對未見過物件的精準抓取,其軟硬材質、透明、不同重量、異形等多種多樣。

  圖 4 Google機械臂抓取訓練

五、深度學習的發展前景

  後期深度學習的研究預計將在區域性最優、計算複雜度、網路的設計優化等方面繼續開展,可能出現更多種類、更大規模的資料集(如Feifei Li目前推動的視覺基因組Visual Genome)。同時,深度學習需要藉助大量的訓練資料,而人類卻能僅通過有限樣例學習到新的概念和類別,有很多研究者期望通過One-Shot Learning來解決這種機器和人之間的差異。

  在硬體方面,針對深度學習優化的新指令集與計算晶片已成為研究熱點,體系結構領域的頂級會議ISCA 2016收錄的57篇論文中,9篇與深度學習相關,評分最高的論文是寒武紀處理晶片。以FPGA(Field-Programmable Gate Array,現場可程式設計門陣列)為主的專用處理晶片也已進入業界視線,期望能降低成本和功耗。

  儘管深度學習已經遍地開花,但我們也應該清醒地意識到,這未必就是通往人工智慧的唯一途徑,離全面實際應用還存在著距離。Google的影象標註系統將黑人標註成大猩猩引發了巨大的社會爭議,特斯拉無人駕駛汽車最近的車禍也一再提醒人們,人工智慧即便只有很微小的錯誤率,在實際生活中也可能會造成慘禍。因此,人工智慧的研究依然漫長而艱難。

  延伸閱讀:

  人工智慧&神經網路的前世今生

來源:德智資本(triwise)

文/圖 藍志豪 [email protected]

人工智慧的時代

  在技術飛快進步的時代,下一個計算平臺,可能將是量子計算機與人工智慧的結合的產物。

  如果計算能力能強大到這種地步,人們將不再需要隨身攜帶一個計算裝置,世界上只需要一個強大的人工智慧就夠了。

  離線而非線上的雲資料才是未來的機會所在。這也是機器人可以進入的領域,因為它能夠移動,利用機器人身上裝的感測器,它可以感知到周圍的真實環境,在與環境互動的過程中學習。

  在電腦科學中,這個過程被稱之為感應、計劃及執行。如果利用雲端計算去執行這件事情,很難與真實世界產生互動,就像被困在一個玻璃瓶中一樣。但如果利用機器人直接與真實世界互動產生資料,那將能從中獲得真實世界的資訊反饋。

  機器學習

  機器學習是指用某些演算法指導計算機利用已知資料得出適當的模型,並利用此模型對新的情境給出判斷的過程。 由此看來,機器學習的思想並不複雜,它僅僅是對人類生活中學習過程的一個模擬。

  而在這整個過程中,最關鍵的是資料。 機器學習和大資料是如此密不可分的。不得不說在這一點上計算機是遠遠比不上人腦的。 人類學習能力的可怕之處在於,能夠通過極其有限的樣本歸納出泛化能力極高的準則。 只要資料量足夠大,機器學習演算法的選擇反倒沒有那麼重要了。

  機器學習根據所處理資料種類的不同,可以分為有監督學習,無監督學習,半監督學習和強化學習等幾種型別。 實踐中應用較多的也就是前兩種。 所謂監督學習,就是說資料樣本會告訴計算機在該情形下的正確輸出結果,希望計算機能夠在面對沒有見過的輸入樣本時也給出靠譜的輸出結果,從而達到預測未知的目的。 根據輸出結果是離散值還是連續值,監督學習可以分為分類問題和迴歸問題兩大類。

  機器學習在文字、語音、影象識別,大資料分析、搜尋,預測等方面有著廣泛應用。 而無監督學習,是指資料樣本中沒有給出正確的輸出結果資訊。

  接下來將簡單地介紹一部分人工智慧相關的一部分演算法。

  線性迴歸

  迴歸就是通過資料學習數量關係,然後利用這個數量關係去做預測。迴歸的策略是跳過邏輯分析,讓計算機直接從資料中學習數量關係。這正是機器學習(統計學習)的核心思想。

  在一個迴歸模型中,需要關注或預測的變數叫做因變數(響應變數或結果變數),選取的用來解釋因變數變化的變數叫做自變數(解釋變數或預測變數)。

  做迴歸分析,確定變數後要根據具體問題選擇一個合適的迴歸模型,常用的迴歸模型有線性迴歸,多項式迴歸,邏輯迴歸等。線性迴歸是最簡單實用的迴歸模型。

  線性迴歸的數學基礎

  自變數X,因變數Y,觀測值是:

  迴歸方程是

  k,b是是待學習的引數,ε為殘差。

  簡單來說是找到一條直線y=kx+b來進行模擬,使得所有樣本點儘可能落在這條直線的附近。

  然而來自現實的資料是有誤差的,真正的考驗是無法保證所有的樣本點都精確滿足迴歸方程。

  其實這裡可以通過高等數學中的只是進行彌補:用誤差ε取到極小,通過最小二乘法(Ordinary Least Square, OLS)。求解使得εi(i=1,2,…,n)的平方和極小化的k,b:

  多元線性迴歸本質也是一樣,只是自變數和引數的個數變為多個。

  從數理統計的角度來看,需要滿足以下條件:

  1. 誤差ε是一個期望0的隨機向量;

  1. 對於解釋變數的所有觀測值,ε的各個分量有相同的方差,且彼此不相關;

  1. 解釋變數與隨機誤差項彼此相互獨立;

  1. 解釋變數之間不存在精確的線性關係;

  2. 隨機誤差項服從正態分佈。

  然而現實中,無論資料是否滿足模型假設,都可以通過最小二乘法去得到引數。

  (Anscombe's quartet,圖片來自維基百科)

  以上對四組觀測資料,雖然用線性迴歸將得到完全相同的模型,但是此時的模型的有效性就很難解釋了。

  檢驗一個迴歸模型之前需要對資料進行驗證:

  1. ε是否近似滿足平均值為0的正態分佈

  1. 因變數值是否獨立

  2. 是否存在離群點、強影響點

  所以可以看出來,最最核心的事情就是資料的預處理和資料是都合理。

  貝葉斯公式

  設A和B是兩個事件,那麼貝葉斯公式為:

  

  其中:

  • P(A)和P(B)表示A和B各自發生的概率

  • P(A | B)表示已知B發生時,A發生的條件概率

  • P(B | A)表示已知A發生時,B發生的條件概率

  貝葉斯公式因其獨立性假設而得名,不論模型訓練或者預測分類,計算都是線性的,因此計算量很小、結果也精確,所以它是公認的資料探勘十大演算法之一。

  邏輯迴歸

  邏輯迴歸(LogisticRegression)區別於一般的線性迴歸模型。

  由於很多情況下因變數是定型變數,所以需要用到邏輯迴歸演算法;而邏輯迴歸演算法也因為簡單易用,則成為了網際網路常用常用演算法和深度學習的基本組成單元。

  sigmoid函式

  在介紹邏輯迴歸模型之前,我們先引入sigmoid函式,其數學形式是:

  對應的函式曲線如下圖所示:

  從上圖可以看到sigmoid函式是一個s形的曲線,它的取值在[0, 1]之間,在遠離0的地方函式的值會很快接近0/1。這個性質使我們能夠以概率的方式來解釋(後邊延伸部分會簡單討論為什麼用該函式做概率建模是合理的)。

  決策函式

  一個機器學習的模型,實際上是把決策函式限定在某一組條件下,這組限定條件就決定了模型的假設空間。當然,我們還希望這組限定條件簡單而合理。而邏輯迴歸模型所做的假設是:

  這裡的 g(h) 是上邊提到的 sigmoid 函式,相應的決策函式為:

  選擇0.5作為閾值是一個一般的做法,實際應用時特定的情況可以選擇不同閾值,如果對正例的判別準確性要求高,可以選擇閾值大一些,對正例的召回要求高,則可以選擇閾值小一些。

  生成模型和判別模型

  邏輯迴歸是一種判別模型,表現為直接對條件概率P(y|x)建模,而不關心背後的資料分佈P(x,y)。而高斯貝葉斯模型(Gaussian Naive Bayes)是一種生成模型,先對資料的聯合分佈建模,再通過貝葉斯公式來計算樣本屬於各個類別的後驗概率,即:

  通常假設P(x|y)是高斯分佈,P(y)是多項式分佈,相應的引數都可以通過最大似然估計得到。如果我們考慮二分類問題,通過簡單的變化可以得到:

  

  如果 σ1=σ0,二次項會抵消,我們得到一個簡單的線性關係:

  由上式進一步可以得到:

  可以看到,這個概率和邏輯迴歸中的形式是一樣的。這種情況下GNB(Gaussian Naive Bayes) 和LR(LogisticRegression)會學習到同一個模型。實際上,在更一般的假設(P(x|y)的分佈屬於指數分佈族)下,我們都可以得到類似的結論。

  多分類(softmax)

  如果y不是在[0,1]中取值,而是在K個類別中取值,這時問題就變為一個多分類問題。有兩種方式可以出處理該類問題:一種是我們對每個類別訓練一個二元分類器(One-vs-all),當K個類別不是互斥的時候,比如使用者會購買哪種品類,這種方法是合適的。如果K個類別是互斥的,即 y=i 的時候意味著 y 不能取其他的值,比如使用者的年齡段,這種情況下 Softmax 迴歸更合適一些。Softmax 迴歸是直接對邏輯迴歸在多分類的推廣,相應的模型也可以叫做多元邏輯迴歸(Multinomial Logistic Regression)。模型通過 softmax 函式來對概率建模,具體形式如下:

  而決策函式為:

  對應的損失函式為:

  邏輯迴歸的數學模型和求解都相對比較簡潔,實現相對簡單。通過對特徵做離散化和其他對映,邏輯迴歸也可以處理非線性問題,是一個非常強大的分類器。

  支援向量機(Suooprt Vector Machine,SVM)

  由於實際問題中的資料分佈往往比較複雜,如果單純的從二維的角度看,資料分佈可能無法精確呈現。如下圖

  第一種為線性可分的分佈,可以簡單分兩類;

  第二種為非線性可分的分佈,雖然很難用一條直線區分開,但可以用曲線分類。

  第三種為不可分的分佈,這種情況下很難完全將兩類資料分開。

  而SVM則可以很好地提高第三種情況的資料處理效率。

  SVM是最大分類間隙來設計決策最優分類超平面的演算法。它在解決小樣本、非線性及高維模式識別有很多優勢,近年來在文字識別、文字分類、人臉識別中發揮重要作用。

  優點:

  通過使用核函式,能夠方便地處理高維資料

  決策函式由少量的支援向量決定,預測效率高效

  缺點:

  當特徵維度遠遠大於樣本量時,效果會比較差

  當樣本量很大時,使用非線性核函式會導致計算效率低下

  SVM無法直接輸出概率化的取值

  SVM的原理

  首先間隔定義為樣本點到分類超平面(二維下即直線)的最小距離。

  正類的樣本點(xi,yi=1)到決策超平面的距離為:

  負類的樣本點(xi,yi=?1)到決策超平面的距離為:

  所以,任意樣本點(xi,yi)到決策超平面的距離可以統一表示為:

  SVM的學習目標就是要找到一個決策超平面,使得訓練樣本集到超平面的最小距離最大化,對上述問題,即是找到下圖中的超平面(直線):

  而這樣一個直觀的尋找過程可以用數學中的最優化模型來表示,其形式如下:

  SVM 對於決策邊界近似線性的資料,可以使用軟間隔的方法,允許資料跨越決策面(允許誤分類),但是對跨越決策面的資料加以懲罰。 對於複雜決策面的資料,則通過核函式的方法將低維資料對映到高維甚至無限維空間,從而能夠處理低緯空間中線性不可分但在高維空間線性可分的資料。

  不平衡資料

  生活中經常會遇到不平衡的資料集,比如廣告點選預測、商品推薦等。

  SMOTE全稱是Synthetic Minority Oversampling Technique即合成少數類過取樣技術,它是基於隨機過取樣演算法的一種改進方案,由於隨機過取樣採取簡單複製樣本的策略來增加少數類樣本,這樣容易產生模型過擬合的問題,即使得模型學習到的資訊過於特別(Specific)而不夠泛化(General),SMOTE演算法的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本新增到資料集中,具體如圖所示。

  • 其中rand(0,1)表示區間(0,1)內的隨機數。

  過擬合問題

  “預測”就是根據已知的輸入和輸出進行學習,並依照給定的新輸入給出判斷。預測問題可以劃分為分類問題和迴歸問題。

  為了得到一致假設而使假設變得過度複雜稱為過擬合。避免過擬合是分類器設計中的一個核心任務。

  解決分類和迴歸問題的模型演算法有上百種,一類模型自由度是固定的,這些是簡單模型,如線性迴歸模型。另一類模型的自由度可以新增,則是複雜模型,例如決策樹可以多層、神經網路可以由任意多個神經元和隱藏層。

  一般簡單模型對問題效果如果不好,則只有建立更好的特徵,模型並沒有多少改造的空間。複雜模型則可通過不斷調節自由度(引數)進行不同訓練來改進。而這種更改在資料上可能得不到直觀體現,效果可能先升後降。

  如果資料問題較複雜,簡單模型無效,複雜模型又效果一般,則通常解決方案則是特徵選擇(FeatureSelection)、降維(Dimension Reduction)和正則化(Regularization)。在處理資料的過程中,降維與特徵選擇常常是耦合在一起的。

  正則化簡單地說就是人為在模型中加入一些懲罰項或者約束,使得模型複雜度的升高得到限制,從而避免由於模型過度複雜而引起的過擬合。

  深度學習(Deep Learning)中的卷積神經網(ConvolutionalNeural Network)絡技術可以被認為是一種正則化方法,因為卷積本身就限定了層與層之間的對映關係在一個非常小的函式空間內。

Google的野望

  Jeff Dean是Google系統架構組院士,在最新的講座:“大規模深度學習構建智慧計算機系統”中提到。Google的使命:Organize the world's information and make it unversally accesible and useful. 整合全球資訊,使人人皆可訪問並從中受益。

  一開始從只有少數的產品開始,但逐年增加,使用深度學習的產品有:安卓,Apps,藥品發現,Gmail,圖片理解,地圖,自然語義,照片,機器人研究,語音、語音翻譯等。

  深度學習可以應用到多個領域的原因是那些模組都是標準化的,如:語音,文字,搜尋詞,圖片,視訊,標籤,實體,短語,音訊、特徵等。你的輸入值,決定了你要的輸出,根據收集的資料可以進行訓練,得到結果後就可以放手不管。

  什麼事深度神經網路?

  深度神經網路是從資料提煉出來的複雜函式構建的網路,而深度指的是神經網路的層數。這個系統是一組簡單的可以訓練的數學函式集合。

  當輸入一張圖片,輸出是人工標記的貓圖片,這就是所謂的監督學習。當你把許多的樣本送給系統,它會去學習近似的函式。而非監督學習指的是系統可以根據非指定的圖片,用深度學習的“經驗”識別出圖片中的物品。

  為了決定圖片中的到底是貓還是狗,需要經過很多層。

  從最底部的神經元將會看到畫素塊,而更高層的神經元則會根絕下層的神經元的輸出才決定是否工作。

  模型有可能會出錯,但是它會總結錯誤並在系統中進行調整,下一次輸入就可能輸出正確的答案。

  學習演算法比較簡單

  選擇訓練樣本

  執行神經網路在輸入後檢視它的結果

  調整後的權重讓輸出更接近於標籤

  看看神經網路到底是如何工作的?

  讓我們用動圖看看神經網路到底是如何工作的?

  1.首先由很多層的神經網路組成整個網路

  2.最底層的神經網路會先對樣品進行學習和判斷。

  3.整個神經網路會進行學習,而深層的神經網路單元會根據前面的單元反饋的結果進行判斷。

  4.不同的學習單元會有不同的判斷的結果,但通過重複的學習和糾正(調整策略和權重),最終會提升學習效率和準確性

  5.經過重複學習後,這型別的圖片的特徵已經被神經網路記住了,以後這型別的圖片也能輕易被識別

  模型的並行化

  神經網路有很多固有的並行化,所有不同的神經元與其他的也是保持獨立,特別本地接納的,神經元僅僅接受一小部分比它更低的神經元作為輸入。

  資料並行化

  優化的模型引數集不應該在一臺機器上或者一臺中心伺服器上,應該有多個模型拷貝進行分散式部署,一起協助去優化引數。

  人工智慧創業正在爆炸式發展

  上圖是Facebook十年發展路線圖,對於大公司而言,人工智慧已經不僅僅是一種圖景,而已經是一種必備武器。Google和微軟已經毋庸贅言,單說在人工智慧上起步最晚的Facebook在這方面的努力就可見一斑。 Facebook幾年前在人工智慧上還幾乎是一片空白,但追趕的速度卻非常快。目前,該公司有兩大實驗室,其中一個是重點發展基礎研究的Facebook AI專案(FAIR,Yann LeCun負責),另一個則是專注於人工智慧產品應用的應用機器學習部門(AML,西班牙裔機器學習專家Joaquin Candela負責)。 在今年Facebook公佈的發展路線圖中,AI作為一個10年發展戰略之一,已經被清晰的表述了出來。

  人工智慧融資創歷史 4年增長近10倍

  根據 CB Insight 的投資資料,最近一個季度,人工智慧初創公司拿的錢也越來越多了。按年來看的話,這個趨勢更明顯

  這是 2011 年到 2015 年,AI 類初創公司獲得融資數額的趨勢圖

  人工智慧初創企業融資與交易數量 國外網站cbinsights最近利用其資料庫對美國人工智慧的融資交易情況做了個統計,結果令人震驚!人工智慧初創企業的融資額在過去短短4年幾乎增長了10倍,可謂大爆炸的發展!

  人工智慧季度融資專案創歷史新高

  今年上半年,人工智慧類初創公司數量和 2011 年比,增長了 6 倍。光是今年第一季度,獲得融資的 AI 相關公司就有 143 家:

  2011 到 2015 年每個季度 AI 公司公開的投資情況。藍色為投資金額(單位美元),橙色為投資數量。

  人工智慧企業融資仍聚焦於初期階段

  人工智慧初創企業融資統計 過去五年,人工智慧初創企業的數量在增長,融資階段也仍然聚焦於種子天使輪和A輪,這一方面說明人工智慧的初創企業仍在早期,但也說明新的人工智慧企業在增加。另外,從資金流向上看,目前多數資金都流向了人工智慧企業的早期融資階段。但是由於大融資專案的出現,E輪以上的融資額佔比也在增加。

  展望未來黑科技

  Facebook 和 Google、亞馬遜、微軟都推出了自己的聊天機器人,而ios系統在10.0版本的更新後也還將融入人工智慧並將iMessage服務開放給第三方。雖然“聊天”這個方式不一定完全是未來的互動方式,但是相信未來的5年內,大部分的應用和平臺都是會植入人工智慧的功能。

  就目前來說,大部分的人工智慧是針對人的視覺、語言、語音,然後進行決策,然後可以做一點點的判斷和預測。而如果是要做一整套完整的人工智慧系統的話,是需要有一個反饋的,比如智慧駕駛系統。

  而深度學習恰恰就解決了反饋的問題。它的特點是使用了多層的網路,能夠學習抽象概念,然後加入自我學習,然後進行自我反饋。通過自我的學習,機器會逐步從大量的樣本中抽象出相關的概念,然後做出理解然後總結,最後可以做出決策和判斷。

  機器學習、深度學習在突破在精度方面已經有了很大的突破,但未來也還是有非常多的進步和融合的空間,相信未來5-10年,將不會有“網際網路+”的概念,而“人工智慧+”的概念將會越來越火爆。

  未來的“人工智慧+”這個概念,將會含括大資料、感知、決策、反饋這幾個方向。目前就大資料方面,網際網路應用、BI(商業智慧)、商業自動化都已經有使用相關的技術;而未來很多離錢最近的傳統行業也將擁抱大資料,包括投資、保險、銀行、醫療、教育、房地產等都會進行傳統與現代的融合。

  而對於感知的方面,目前的語音識別、人臉識別、虹膜識別、指紋識別等都已經做到很高的水準;而最近一兩年的VR/ AR不太可能大規模普及,因為硬體的成本過高和使用者的普及率過低,還沒有達到爆發的地步,但是有理由相信未來VR/ AR將會顛覆人們生活的很多方面,當中的一部分互動方式就是通過人工智慧誕生的新型互動方式或者新型互動平臺。

  這個新平臺將會包含人工智慧、先進的計算框架、演算法框架,將會衝擊現有的所有作業系統。它以某種形式出現,可以存在於機器人內,機器人只是一個載體,也可以增加很多的感測器,增加多維度的感知。它可以出現在任何地方,前提是隻需要有一個支援執行的計算平臺就可以,這樣理解的話就非常像復仇者聯盟的奧創。

  未來的機器人將會滲透到人類生活的方方面面,提高生活質量、工作效率,但是一定是經過新型的人工智慧平臺和機器人結合以後才會在日常生活、家庭中大範圍普及。

  無人駕駛也將是人工智慧未來的重要部分,但就目前的實際情況來說,還需要循序漸進的進行迭代、法律的完善、道德的支撐,才能真正的實現全天候的無人駕駛。

  從長期看,未來人工智慧會在所有的領域徹底改變人類,產生更多的價值,取代更多人的工作,也會讓很多現在重複性的工作被取代,然後讓人去做人真正應該去做的事情。短期來說,人工智慧商業價值也很大,短期在很多領域都能產生價值。

  在不久的將來,人工智慧將會在很多的領域徹底改變乃至顛覆人類,產生更多的價值,說不定人類將藉由人工智慧,產生新形態的人類,延長壽命、增加智慧、開發潛能。