AI晶片格局最全分析

本文分析了國內外AI晶片的格局和特點，作者認為，在AI晶片領域，國外晶片巨頭佔據了絕大部分市場份額，不論是在人才聚集還是公司合併等方面，都具有絕對的領先優勢。而國內AI初創公司則又呈現百家爭鳴、各自為政的紛亂局面；特別是每個初創企業的AI晶片都具有自己獨特的體系結構和軟體開發套件，既無法融入英偉達和谷歌建立的生態圈，又不具備與之抗衡的實力。

>>>>

如果說 2016 年 3 月份 AlphaGo 與李世石的那場人機大戰只在科技界和圍棋界產生較大影響的話，那麼 2017 年 5 月其與排名第一的世界圍棋冠軍柯潔的對戰則將人工智慧技術推向了公眾視野。阿爾法狗（AlphaGo）是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程式，由谷歌（Google）旗下 DeepMind 公司戴密斯 · 哈薩比斯領銜的團隊開發，其主要工作原理是 “深度學習”。

其實早在 2012 年，深度學習技術就已經在學術界引起了廣泛地討論。在這一年的 ImageNet 大規模視覺識別挑戰賽 ILSVRC 中，採用 5 個卷積層和 3 個全連線層的神經網路結構 AlexNet，取得了 top-5（15.3%）的歷史最佳錯誤率，而第二名的成績僅為 26.2%。從此以後，就出現了層數更多、結構更為複雜的神經網路結構，如 ResNet、GoogleNet、VGGNet 和 MaskRCNN 等，還有去年比較火的生成式對抗網路 GAN。

不論是贏得視覺識別挑戰賽的 AlexNet，還是擊敗圍棋冠軍柯潔的 AlphaGo，它們的實現都離不開現代資訊科技的核心——處理器，不論這個處理器是傳統的 CPU，還是 GPU，還是新興的專用加速部件 NNPU（NNPU 是 Neural Network Processing Unit 的簡稱）。在計算機體系結構國際頂級會議 ISCA2016 上有個關於體系結構 2030 的小型研討會，名人堂成員 UCSB 的謝源教授就對 1991 年以來在 ISCA 收錄的論文進行了總結，專用加速部件相關的論文收錄是在 2008 年開始，而在 2016 年達到了頂峰，超過了處理器、儲存器以及互聯結構等三大傳統領域。而在這一年，來自中國科學院計算技術研究所的陳雲霽、陳天石研究員課題組提交的《一種神經網路指令集》論文，更是 ISCA2016 最高得分論文。

在具體介紹 AI 晶片國內外之前，看到這裡有部分讀者或許會產生這樣的疑惑：這不都是在說神經網路和深度學習嗎？那麼我覺得有必要對人工智慧和神經網路的概念進行闡述，特別是 2017 年工信部發布的《促進新一代人工智慧產業發展三年行動計劃（2018-2020 年）》中，對發展目標的描述很容易讓人覺得人工智慧就是神經網路，AI 晶片就是神經網路晶片。

人工智慧整體核心基礎能力顯著增強，智慧感測器技術產品實現突破，設計、代工、封測技術達到國際水平，神經網路晶片實現量產並在重點領域實現規模化應用，開源開發平臺初步具備支撐產業快速發展的能力。

其實則不然。人工智慧是一個很老很老的概念，而神經網路只不過是人工智慧範疇的一個子集。早在 1956 年，被譽為 “人工智慧之父” 的圖靈獎得主約翰 · 麥卡錫就這樣定義人工智慧：創造智慧機器的科學與工程。而在 1959 年，Arthur Samuel 給出了人工智慧的一個子領域機器學習的定義，即“計算機有能力去學習，而不是通過預先準確實現的程式碼”，這也是目前公認的對機器學習最早最準確的定義。而我們日常所熟知的神經網路、深度學習等都屬於機器學習的範疇，都是受大腦機理啟發而發展得來的。另外一個比較重要的研究領域就是

脈衝神經網路，國內具有代表的單位和企業是清華大學類腦計算研究中心和上海西井科技等。

好了，現在終於可以介紹 AI 晶片國內外的發展現狀了，當然這些都是我個人的一點觀察和愚見，管窺之見權當拋磚引玉。

國外：技術寡頭，優勢明顯

由於具有得天獨厚的技術和應用優勢，英偉達和谷歌幾乎佔據了人工智慧處理領域 80% 的市場份額，而且在谷歌宣佈其 Cloud TPU 開放服務和英偉達推出自動駕駛處理器 Xavier 之後，這一份額佔比在 2018 年有望進一步擴大。其他廠商，如英特爾、特斯拉、ARM、IBM 以及 Cadence 等，也在人工智慧處理器領域佔有一席之地。

當然，上述這些公司的專注領域卻不盡相同。比如英偉達主要專注於 GPU 和無人駕駛領域，而谷歌則主要針對雲端市場，英特爾則主要面向計算機視覺，Cadence 則以提供加速神經網路計算相關 IP 為主。如果說前述這些公司還主要偏向處理器設計等硬體領域，那麼ARM 公司則主要偏向軟體，致力於針對機器學習和人工智慧提供高效演算法庫。

注：上述表格中所給為截止到 2017 年各研製單位公開可查的最新資料。

獨佔鰲頭——英偉達

在人工智慧領域，英偉達可以說是目前涉及面最廣、市場份額最大的公司，旗下產品線遍佈自動駕駛汽車、高效能運算、機器人、醫療保健、雲端計算、遊戲視訊等眾多領域。其針對自動駕駛汽車領域的全新人工智慧超級計算機 Xavier，用 NVIDIA 執行長黃仁勳的話來說就是 “這是我所知道的 SoC 領域非常了不起的嘗試，我們長期以來一直致力於開發晶片。”

Xavier 是一款完整的片上系統 (SoC)，集成了被稱為 Volta 的全新 GPU 架構、定製 8 核 CPU 架構以及新的計算機視覺加速器。該處理器提供 20 TOPS（萬億次運算 / 秒）的高效能，而功耗僅為 20 瓦。單個 Xavier 人工智慧處理器包含 70 億個電晶體，採用最前沿的 16nm FinFET 加工技術進行製造，能夠取代目前配置了兩個移動 SoC 和兩個獨立 GPU 的 DRIVE PX 2，而功耗僅僅是它的一小部分。

而在 2018 年拉斯維加斯 CES 展會上，NVIDIA 又推出了三款基於 Xavier 的人工智慧處理器，包括一款專注於將增強現實（AR）技術應用於汽車的產品、一款進一步簡化車內人工智慧助手構建和部署的 DRIVE IX 和一款對其現有自主計程車大腦——Pegasus 的修改，進一步擴大自己的優勢。

產學研的集大成者——谷歌

如果你只是知道谷歌的 AlphaGo、無人駕駛和 TPU 等這些人工智慧相關的產品，那麼你還應該知道這些產品背後的技術大牛們：谷歌傳奇晶片工程師 Jeff Dean、谷歌雲端計算團隊首席科學家、斯坦福大學 AI 實驗室主管李飛飛、Alphabet 董事長 John Hennessy 和谷歌傑出工程師 David Patterson。

時至今日，摩爾定律遇到了技術和經濟上的雙重瓶頸，處理器效能的增長速度越來越慢，然而社會對於計算能力的需求增速卻並未減緩，甚至在移動應用、大資料、人工智慧等新的應用興起後，對於計算能力、計算功耗和計算成本等提出了新的要求。與完全依賴於通用 CPU 及其程式設計模型的傳統軟體編寫模式不同，異構計算的整個系統包含了多種基於特定領域架構（Domain-Specific Architecture, DSA）設計的處理單元，每一個 DSA 處理單元都有負責的獨特領域並針對該領域做優化，當計算機系統遇到相關計算時便由相應的 DSA 處理器去負責。而谷歌就是異構計算的踐行者，TPU 就是異構計算在人工智慧應用的一個很好例子。

2017 年釋出的第二代 TPU 晶片，不僅加深了人工智慧在學習和推理方面的能力，而且谷歌是認真地要將它推向市場。根據谷歌的內部測試，第二代晶片針對機器學習的訓練速度能比現在市場上的圖形晶片（GPU）節省一半時間；第二代 TPU 包括了四個晶片，每秒可處理 180 萬億次浮點運算；如果將 64 個 TPU 組合到一起，升級為所謂的 TPU Pods，則可提供大約 11500 萬億次浮點運算能力。

計算機視覺領域的攪局者——英特爾

英特爾作為世界上最大的計算機晶片製造商，近年來一直在尋求計算機以外的市場，其中人工智慧晶片爭奪成為英特爾的核心戰略之一。為了加強在人工智慧晶片領域的實力，不僅以 167 億美元收購 FPGA 生產商 Altera 公司，還以 153 億美元收購自動駕駛技術公司 Mobileye，以及機器視覺公司 Movidius 和為自動駕駛汽車晶片提供安全工具的公司 Yogitech，背後凸顯這家在 PC 時代處於核心位置的巨頭面向未來的積極轉型。

Myriad X 就是英特爾子公司 Movidius 在 2017 年推出的視覺處理器 (VPU，vision processing unit)，這是一款低功耗的系統晶片 (SoC)，用於在基於視覺的裝置上加速深度學習和人工智慧——如無人機、智慧相機和 VR / AR 頭盔。Myriad X 是全球第一個配備專用神經網路計算引擎的片上系統晶片（SoC），用於加速裝置端的深度學習推理計算。該神經網路計算引擎是晶片上整合的硬體模組，專為高速、低功耗且不犧牲精確度地執行基於深度學習的神經網路而設計，讓裝置能夠實時地看到、理解和響應周圍環境。引入該神經計算引擎之後，Myriad X 架構能夠為基於深度學習的神經網路推理提供 1TOPS 的計算效能。

執 “能效比” 之牛耳——學術界

除了工業界和廠商在人工智慧領域不斷推出新產品之外，學術界也在持續推進人工智慧晶片新技術的發展。

比利時魯汶大學的 Bert Moons 等在 2017 年頂級會議 IEEE ISSCC 上面提出了能效比高達 10.0TOPs/W 的針對卷積神經網路加速的晶片 ENVISION，該晶片採用 28nm FD-SOI 技術。該晶片包括一個 16 位的 RISC 處理器核，1D-SIMD 處理單元進行 ReLU 和 Pooling 操作，2D-SIMD MAC 陣列處理卷積層和全連線層的操作，還有 128KB 的片上儲存器。

韓國科學技術院 KAIST 的 Dongjoo Shin 等人在 ISSCC2017 上提出了一個針對 CNN 和 RNN 結構可配置的加速器單元 DNPU，除了包含一個 RISC 核之外，還包括了一個針對卷積層操作的計算陣列 CP 和一個針對全連線層 RNN-LSTM 操作的計算陣列 FRP，相比於魯汶大學的 Envision，DNPU 支援 CNN 和 RNN 結構，能效比高達 8.1TOPS/W。該晶片採用了 65nm CMOS 工藝。

相比較於魯汶大學和韓國科學技術院都針對神經網路推理部分的計算操作來說，普渡大學的Venkataramani S 等人在計算機體系結構頂級會議 ISCA2017 上提出了針對大規模神經網路訓練的人工智慧處理器 SCALLDEEP。

該論文針對深度神經網路的訓練部分進行鍼對性優化，提出了一個可擴充套件伺服器架構，且深入分析了深度神經網路中卷積層，取樣層，全連線層等在計算密集度和訪存密集度方面的不同，設計了兩種處理器 core 架構，計算密集型的任務放在了 comHeavy 核中，包含大量的 2D 乘法器和累加器部件，而對於訪存密集型任務則放在了 memHeavy 核中，包含大量 SPM 儲存器和 tracker 同步單元，既可以作為儲存單元使用，又可以進行計算操作，包括 ReLU，tanh 等。而一個 SCALEDEEP Chip 則可以有不同配置下的兩類處理器核組成，然後再組成計算簇。

論文中所用的處理平臺包括 7032 個處理器 tile。論文作者針對深度神經網路設計了編譯器，完成網路對映和程式碼生成，同時設計了設計空間探索的模擬器平臺，可以進行效能和功耗的評估，效能則得益於時鐘精確級的模擬器，功耗評估則從 DC 中提取模組的網表級的引數模型。該晶片僅採用了 Intel 14nm 工藝進行了綜合和效能評估，峰值能效比高達 485.7GOPS/W。

國內：百家爭鳴，各自為政

可以說，國內各個單位在人工智慧處理器領域的發展和應用與國外相比依然存在很大的差距。由於我國特殊的環境和市場，國內人工智慧處理器的發展呈現出百花齊放、百家爭鳴的態勢，這些單位的應用領域遍佈股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域，催生了大量的人工智慧晶片創業公司，如地平線、深鑑科技、中科寒武紀等。儘管如此，國內起步較早的中科寒武紀卻並未如國外大廠一樣形成市場規模，與其他廠商一樣，存在著各自為政的散裂發展現狀。

除了新興創業公司，國內研究機構如北京大學、清華大學、中國科學院等在人工智慧處理器領域都有深入研究；而其他公司如百度和位元大陸等，2017 年也有一些成果釋出。

注：上述表格中所給為截止到 2017 年各研製單位公開可查的最新資料。

全球 AI 晶片界首個獨角獸——寒武紀

AI晶片格局最全分析

AI晶片格局最全分析

Vue CLI 3搭建vue+vuex 最全分析

面試常考點之RecyclerView回收和複用機制最全分析

AI行業快報：人工智能最新最全資訊！

實錘！全聯接大會上華為釋出兩款AI晶片

【新人必看】最全的python就業前景分析

【不看後悔】2018年最全的python就業前景分析

清華出品：最易懂的AI晶片報告！人才技術趨勢都在這裡

java設計模式精講 Debug 方式+記憶體分析目前最全

牛人經驗4(一文看懂國產晶片現狀（梳理2018最全版）)

java設計模式精講 Debug 方式+記憶體分析（目前最全）

史上最全Python資料分析學習路徑圖

可能是全網最全最新最細的 webpack-tapable-2.0 的原始碼分析

華為釋出5大AI戰略，並帶來了全球首個全場景AI晶片

史上最全的select加鎖分析(Mysql)

[開源]KT1025A可能是功能最全面的MP3藍芽音訊數傳晶片BT201模組方案

【原創】驚！史上最全的select加鎖分析(Mysql)

2017年中國人工智慧產業最全研究報告發布 | AI世界2018年八大趨勢

最全微信防封辦法總結分析，一分鐘看懂

最全NFC晶片技術廠商介紹及應用介紹

AI晶片格局最全分析

相關推薦