AI晶片的“戰國時代”：計算力將會駛向何方？

阿新 • • 發佈：2018-11-08

640?wx_fmt=png

CSDN 出品的《2018-2019 中國人工智慧產業路線圖》V2.0 版即將重磅面世！

V1.0 版釋出以來，我們有幸得到了諸多讀者朋友及行業專家的鼎力支援，在此表示由衷感謝。此次 V2.0 版路線圖將進行新一輪大升級，內容包括 3 大 AI 前沿產業趨勢分析，10 位 AI 特邀專家的深度技術分析，15 家一線網際網路企業的 AI 實力大巡展，以及 20 個 AI 優秀應用案例，力求為讀者呈現更全面的中國人工智慧產業發展概況和趨勢判斷。

V2.0 版將於 11 月 8 日舉辦的 2018 AI 開發者大會上正式釋出，在此之前，我們將不間斷公佈精要內容，以饗讀者。此為 V2.0 版中深度技術分析系列稿件第 8 篇，作者為 CSDN 特邀 AI 專家——樊平，深維科技CEO

。本文將主要立足於 AI 晶片，後續我們還會從更多角度進行分析，敬請期待。（回顧：第 1、2、3、4、5、6、7 篇）

作者簡介：樊平，深維科技CEO，FPGA EDA與晶片架構專家，曾主持並參與了十餘款FPGA晶片的EDA工具與晶片架構的設計和開發工作，擁有50多項發明專利。2016年創立深維科技，致力於推動FPGA異構計算技術的快速發展。

人工智慧應用的蓬勃發展對算力提出了非常迫切的要求。由於摩爾定律已經失效，定製計算將成為主流方向，因而新型的 AI 晶片開始層出不窮，競爭也日趨白熱。參與這一競爭的不光是傳統的半導體晶片廠商，大型的網際網路和終端裝置企業依託於自身龐大的應用規模，直接從自身業務需求出發，參與到 AI 晶片的開發行列。這其中以英偉達為代表的 GPU 方案已經形成規模龐大的生態體系，谷歌的 TPU 則形成了網際網路定義 AI 晶片的標杆，其餘各家依託各自需求和優勢，提出了多類解決方案。本文將簡要梳理目前各家技術進展狀態，結合人工智慧應用的發展趨勢，對影響 AI 晶片未來發展趨勢的主要因素做出一個粗淺探討。

AI 計算晶片現狀

目前 AI 晶片領域主要的供應商仍然是英偉達，英偉達保持了極大的投入力度，快速提高 GPU 的核心效能，增加新型功能，保持了在 AI 訓練市場的霸主地位，並積極拓展嵌入式產品形態，推出 Xavier 系列。網際網路領域，谷歌推出 TPU3.0，峰值效能達到 100pflops，保持了專用加速處理器的領先地位。同時華為、百度、阿里、騰訊依託其龐大應用生態，開始正式入場，相繼釋出其產品和路線圖。此外，FPGA 技術，因其低延遲、計算架構靈活可定製，正在受到越來越多的關注，微軟持續推進在其資料中心部署 FPGA，Xilinx 和 Intel 倆家不約而同把 FPGA 未來市場中心放到資料中心市場。Xilinx 更是推出了劃時代的 ACAP，第一次將其產品定位到超越 FPGA 的範疇。相較雲端高效能 AI 晶片，面向物聯網的 AI 專用晶片門檻要低很多，因此也吸引了眾多小體量公司參與。

640?wx_fmt=jpeg

▌NVIDIA：Xavier

2018 年 1 月，英偉達釋出了首個自動駕駛處理器——Xavier。這款晶片具有非常複雜的結構，內建六種處理器，超過 90 億個電晶體，可以處理海量資料。Xavier 的 GMSL（千兆多媒體序列鏈路）高速 IO 將其與迄今為止最大陣列的鐳射雷達、雷達和攝像頭感測器連線起來。

640?wx_fmt=png

圖：Xavier 的內部結構

▌NVIDIA：DGX-2

2018 年 3 月，NVIDIA 釋出首款 2-petaFLOPS 系統——DGX-2。它整合了 16 個完全互聯的 GPU，使深度學習效能提升 10 倍。有了 DGX-2 ，模型的複雜性和規模不再受傳統架構限制的約束。與傳統的 x85 架構相比，DGX-2 訓練 ResNet-50 的效能相當於 300 臺配備雙英特爾至強 Gold CPU 伺服器的效能，後者的成本超過 270 美元。

640?wx_fmt=jpeg

圖：DGX-2 的內部結構

▌Google：TPU

自 2016 年首次釋出 TPU 以來，Google 持續推進，2017 年釋出 TPU 2.0，2018 年 3 月 Google I/O 大會推出 TPU 3.0。其每個 pod 的機架數量是 TPU 2.0 的兩倍；每個機架的雲 TPU 數量是原來的兩倍。據官方資料，TPU 3.0 的效能可能是 TPU2.0 的八倍，高達 100 petaflops。

640?wx_fmt=png

圖：TPU 1 & 2 & 3 引數對比圖

▌華為：晟騰 910 & 晟騰 310

2018 年 10月，華為正式釋出兩款 AI 晶片：昇騰 910 和昇騰 310。預計下一年第二季度正式上市。華為昇騰 910 採用 7nm 工藝，達芬奇架構，半精度（FP16）可達 256TeraFLOPS，整數精度（INT8）可達 512TeraOPS，自帶 128 通道全高清視訊解碼器 H.264/265，最大功耗350W。華為昇騰 310 採用 12nmFFC 工藝，達芬奇架構，半精度（FP16）可達8TeraFLOPS，整數精度（INT8）可達 16 TeraOPS，自帶 16 通道全高清視訊解碼器H.264/265，最大功耗 8W。

640?wx_fmt=jpeg

圖：華為晟騰效能資料圖

▌寒武紀：MLU100

2018 年 5 月，寒武紀推出第一款智慧處理板卡——MLU100。搭載了寒武紀 MLU100 晶片，為雲端推理提供強大的運算能力支撐。等效理論計算能力高達 128 TOPS，支援 4 通道 64 bit ECCDDR4 記憶體，並支援多種容量。1M 是第三代機器學習專用晶片，使用 TSMC 7nm 工藝生產，其 8 位運算效能比達 5Tops/watt（每瓦 5 萬億次運算）。寒武紀 1M 處理器延續了前兩代 IP 產品（1H/1A）的完備性，可支援 CNN、RNN、SOM 等多種深度學習模型，此次又進一步支援了 SVM、K-NN、K-Means、決策樹等經典機器學習演算法的加速。這款晶片支援幫助終端裝置進行本地訓練，可為視覺、語音、自然語言處理等任務提供高效計算平臺。

640?wx_fmt=png 圖：MLU 100 引數資料表

▌地平線：旭日 1.0 & 征程 1.0

2017 年 12 月，地平線自主設計研發了中國首款嵌入式人工智慧視覺晶片——旭日 1.0 和征程 1.0。旭日 1.0 是面向智慧攝像頭的處理器，具備在前端實現大規模人臉檢測跟蹤、視訊結構化的處理能力，可廣泛用於智慧城市、智慧商業等場景。征程 1.0是面向自動駕駛的處理器，可同時對行人、機動車、非機動車、車道線交通標識等多類目標進行精準的實時監測和識別，實現 FCW/LDW/JACC 等高級別輔助駕駛功能。

▌位元大陸：BM1880 & BM1682

2018 年 10 月，位元大陸正式釋出邊緣計算人工智慧晶片 BM1880，可提供 1 [email protected] 算力。推出面向深度學習領域的第二代張量計算處理器 BM 1682，峰值效能達 3 TFLOPS FP32。

640?wx_fmt=png

640?wx_fmt=png BM1682 VS BM1680 效能對比

BM1682 的算豐智慧伺服器SA3、嵌入式 AI 迷你機 SE3、3D 人臉識別智慧終端以及基於 BM1880 的開發板、AI 模組、算力棒等產品。BM1682 晶片量產釋出，峰值算力達到 3TFlops，功耗為 30W。

▌百度：崑崙晶片

2018 年 7 月，百度AI開發者大會上李彥巨集正式宣佈研發 AI 晶片——崑崙。這款 AI 晶片適合對 AI、深度學習有需求的廠商、機構等。藉助著崑崙 AI 晶片強勁的運算效能，未來有望應用到無人駕駛、影象識別等場景中去。

▌阿里：研發 Ali-NPU、成立平頭哥半導體晶片公司

2018 年 4 月，阿里巴巴達摩院宣佈正在研發的一款神經網路晶片——Ali-NPU。其主要用途是影象視訊分析、機器學習等 AI 推理計算。9 月，在雲棲大會上，阿里巴巴正式宣佈合併中天微達摩院團隊，成立平頭哥半導體晶片公司。

▌Xilinx：ACAP、收購深鑑科技

2018 年 3 月，賽靈思宣佈推出一款超越 FPGA 功能的新產品——ACAP（自適應計算加速平臺）。其核心是新一代的 FPGA 架構。10月，釋出最新基於 7nm 工藝的 ACAP 平臺的第一款處理器——Versal。其使用多種計算加速技術，可以為任何應用程式提供強大的異構加速。Versal Prime 系列和 Versal AI Core 系列產品也將於 2019 年推出。

2018 年 7 月，賽靈思宣佈收購深鑑科技。

640?wx_fmt=png

賽靈思ACAP框圖

AI 晶片發展面臨的矛盾、問題、挑戰

目前AI晶片發展面臨4大矛盾：圍繞這些矛盾，需要解決大量相關問題和挑戰。

▌大型雲服務商與AI晶片提供商的矛盾

技術路線上，面向通用市場的英偉達持續推進 GPU 技術發展，但是大型雲服務商也不願陷入被動，結合自身規模龐大的應用需求，比較容易定義一款適合的 AI 晶片，相應的應用打磨也比較好解決。同時，新的晶片平臺都會帶來生態系統的分裂。但是對於普通使用者，競爭會帶來價格上的好處。由於 AI 算力需求飛速提升，短期內 AI 晶片市場還會進一步多樣化。

▌中美矛盾

中國依託於龐大市場規模，以及 AI 應用技術的大力投資，非常有機會在 AI 相關領域取得突破。但是受到《瓦森那協議》以及近期中美貿易戰等因素影響，中美在積體電路產業層面展開了激烈的競爭。AI 晶片有機會為中國帶來破局的機會，因此後期可以預期，國內會有更多的資金投入到 AI 晶片領域。

▌專用與通用間的矛盾

雲端市場由於各大巨頭高度壟斷，會形成多個相對封閉的 AI 晶片方案。而邊緣端市場由於高度分散，區域性市場難以形成完整的技術生態體系，生態建設會圍繞主流核心技術拓展，包括ARM、Risc-V、NVDLA 等。各大掌握核心技術的廠商，也會迎合這一趨勢，儘可能佔領更大的生態份額，積極開放技術給中小企業開發各類 AI 晶片。

▌AI 晶片創新與設計工具及生態之間的矛盾

以 FPGA 為例，學界和業界仍然沒有開創性的方法簡化 FPGA 的開發，這是現階段制約 FPGA 廣泛使用的最大障礙。和 CPU 或 GPU 成熟的程式設計模型和豐富的工具鏈相比，高效能的 FPGA 設計仍然大部分依靠硬體工程師編寫 RTL 模型實現。RTL 語言的抽象度很低，往往是對硬體電路進行直接描述，這樣，一方面需要工程師擁有很高的硬體專業知識，另一方面在開發複雜的演算法時會有更久的迭代週期。因此，FPGA 標榜的可程式設計能力與其複雜的程式設計模型之間，形成了鮮明的矛盾。近五到十年來，高層次綜合（High Level Synthesis - HLS）一直是 FPGA 學術界研究的熱點，其重點就是希望設計更加高層次的程式設計模型和工具，利用現有的程式語言比如 C、C++ 等，對 FPGA 進行設計開發。

在工業界，兩大 FPGA 公司都選擇支援基於 OpenCL 的 FPGA 高層次開發，並分別釋出了自己的 API 和 SDK 等開發工具。這在一定程度上降低了 FPGA 的開發難度，使得 C 語言程式設計師可以嘗試在 FPGA 平臺上進行演算法開發，特別是針對人工智慧的相關應用。儘管如此，程式設計師仍然需要懂得基本的 FPGA 體系結構和設計約束，這樣才能寫出更加高效的 OpenCL/HLS 模型。因此，儘管有不少嘗試 OpenCL/HLS 進行產品開發的公司，但是目前國內實際能夠掌握這類設計方法的公司還是非常稀缺。各家專用 AI 晶片廠商，都需要建立自己相對獨立的應用開發工具鏈，這個投入通常比開發晶片本身還要龐大，成熟週期也慢很多。Xilinx 對深鑑的收購有效補充了其在 AI 應用開發方面的工具短板。近期 Intel 開源了 OpenVINO，也是在推動其 AI 及 FPGA 生態。也有少數在 FPGA 領域有長期積累的團隊，例如深維科技在為市場提供定製 FPGA 加速方案，可以對應用生態產生有效促進作用。

面對不同的需求，AI計算力最終將會駛向何方？

主要雲服務商以及終端提供商都會圍繞自家優勢產品平臺發展 AI 晶片，雲端 AI 晶片投入巨大，主流技術快速進化，國內企業需要重視 AI 晶片的隱性投入：設計開發工具、可重用資源和生態夥伴。不過近期不大可能迅速形成整合的局面，競爭會進一步加劇。在端上，基於 DSA/RISC-V 的 AI 晶片更多出現在邊緣端 AI+IoT，百花齊放。

三大類技術路線各有優劣，長期並存。

GPU 具有成熟的生態，在 AI 領域具有顯著的先發優勢，目前保持高速增長態勢。

以 Google TPU 為代表的專用 AI 晶片在峰值效能上較 GPU 有一定優勢。確定性是 TPU 另一個優勢。CPU 和 GPU 需要考慮各種任務上的效能優化，因此會有越來越複雜的機制，帶來的副作用就是這些處理器的行為非常難以預測。而使用 TPU 能輕易預測執行一個神經網路並得出模型與推測結果需要多長時間，這樣就能讓晶片以吞吐量接近峰值的狀態執行，同時嚴格控制延遲。不過，TPU 的效能優勢使得它的靈活性較弱，這也是 ASIC 晶片的常見屬性。充分針對性優化的架構也可以得到最佳的能效比。但是開發一款高效能專用晶片的投入是非常高昂的，通常週期也需要至少 15 個月。

FPGA 以及新一代 ACAP 晶片，則具備了高度的靈活性，可以根據需求定義計算架構，開發週期遠遠小於設計一款專用晶片。但是由於可程式設計資源必不可少的冗餘，FPGA 的能效比以及價格通常比專用晶片要差很多。但是 ACAP 的出現，引入了 AI 核的優點，勢必會進一步拉近與專用晶片的差距。隨著 FPGA 應用生態的逐步成熟，FPGA 的優勢也會逐漸為更多使用者所瞭解。

總而言之，AI 晶片的“戰國時代”大幕已經拉開，各路“諸侯”爭相割據一方，謀求霸業，大家難以獨善其身，合縱連橫、百家爭鳴將成為常態。這也必定會是一個英雄輩出的時代。

--【完】--

2018 AI開發者大會

AI技術年度盛會即將開啟！11月8-9日，來自Google、Amazon、微軟、Facebook、LinkedIn、阿里巴巴、百度、騰訊、美團、京東、小米、位元組跳動、滴滴、商湯、曠視、思必馳、第四正規化、雲知聲等企業的技術大咖將帶來工業界AI應用的最新思維。

如果你是某個AI技術領域的專業人才，或想尋求將AI技術整合至傳統企業業務當中，掃碼填寫大會註冊資訊表，我們將從中挑選出20名相關性最高的幸運讀者，送出單場分論壇入場券。大會嘉賓陣容和議題，請檢視文末海報。

640?wx_fmt=png

此外，如果你想與所有參會大牛充分交流溝通，點選閱讀原文購票，使用優惠碼：AI2018-DBY 購買兩日通票，立減999元；此外大會還推出了1024定製票，主會+分會自由組合，精彩隨心。

640?wx_fmt=jpeg

推薦閱讀

在作業系統、晶片領域跌倒的中國程式設計師，如何崛起？| 暢言

GitHub服務中斷24小時11分鐘事故分析報告

大咖指路：機器學習人才這些方向最緊缺！

以太坊2.0? 親歷3天的Devcon我看到了這樣一個以太坊 | 見聞錄

土味紀實文學 | 四十五度角仰望天空，祭奠我 AI 一路學來的那些痛

脣語識別技術的開源教程，聽不見聲音我也能知道你說什麼！

首發|機器學習未來十年：你需要把握的趨勢和熱點

點選「閱讀原文」檢視大會更多重磅資訊。2018 AI開發者大會——擺脫焦慮，擁抱技術前沿。

AI晶片的“戰國時代”：計算力將會駛向何方？

AI晶片的“戰國時代”：計算力將會駛向何方？

烏鎮網際網路大會 | 王恩東院士談人工智慧：計算力就是生產力

綠色 | 企業：上雲將會是常態，不上雲是例外

CNCF Dan Kohn：雲原生將會在中國快速發展

BAT的數據紅利，催生AI時代的敏捷計算力

BAT的資料紅利，催生AI時代的敏捷計算力

位元大陸發力邊緣計算，詳解終端AI晶片BM1880

AI晶片：高效能卷積計算中的資料複用

AI時代：推薦引擎正在塑造人類

喧囂的鬧市：手機AI的通貨膨脹時代

AI＋BIG DATA：無人送貨時代離我們究竟還有多遠？

從電影《Her》來看AI時代下，未來的七夕我們將會如何度過？

王堅：從電力時代到算力時代，人工智能只是互聯網的第一個燈泡

2018 中國AI人才大調查：14張圖表解讀他們來自何處，又將去往何方？

華為釋出重磅AI戰略，AI晶片算力超谷歌英偉達

專訪圖靈獎得主David Patterson：8年前就得知被提名，AI躍遷看好邊緣計算

2018 AI產業投融資分析：熱錢湧向何處，誰的“寒冬”將至？

Cloud一分鐘 | 雲端儲存服務Dropbox Q3淨虧損580萬美元；阿里巴巴CEO張勇：雲端計算未來將成為公司“主營業務”...

【AI實戰】快速掌握TensorFlow（二）：計算圖、會話

清華出品：最易懂的AI晶片報告！人才技術趨勢都在這裡

AI晶片的“戰國時代”：計算力將會駛向何方？

相關推薦