1. 程式人生 > 資訊 >寒武紀官方詳解雲端 AI 晶片思元 370:採用新一代智慧處理器架構 MLUarch03

寒武紀官方詳解雲端 AI 晶片思元 370:採用新一代智慧處理器架構 MLUarch03

11 月 3 日訊息,今天,寒武紀釋出第三代雲端 AI 晶片思元 370、基於思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4、全新升級的 Cambricon Neuware 軟體棧。

▲ 寒武紀第三代雲端 AI 晶片思元 370

獲悉,基於 7nm 製程工藝,思元 370 是寒武紀首款採用 chiplet(芯粒)技術的 AI 晶片,集成了 390 億個電晶體,最大算力高達 256TOPS (INT8),是寒武紀第二代產品思元 270 算力的 2 倍。

憑藉寒武紀最新智慧晶片架構 MLUarch03,相較於峰值算力的提升,思元 370 實測效能表現更為優秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長)實測效能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長)實測效能與同尺寸主流 GPU 相當,能效則大幅領先。

▲ 寒武紀 MLU370-S4(左)與 MLU370-X4 加速卡

思元 370 也是國內第一顆支援 LPDDR5 記憶體的雲端 AI 晶片,記憶體頻寬是上一代產品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。

同時,寒武紀全新升級了 Cambricon Neuware 軟體棧,新增推理加速引擎 MagicMind,實現訓推一體,顯著提升了開發部署的效率,降低使用者的學習成本、開發成本和運營成本。

寒武紀釋出了新一代智慧處理器架構 MLUarch03,擁有新一代張量運算單元,內建 Supercharger 模組大幅提升各類卷積效率;採用全新的多運算元硬體融合技術,在軟體融合的基礎上大幅減少運算元執行時間;片上通訊頻寬是上一代 MLUarch02 的 2 倍、片上共享快取容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完備,更高效且向前相容。

▲ Supercharger 和多運算元硬體融合技術

有 7nm 先進工藝和全新 MLUarch03 架構的加持,思元 370 晶片算力最高可達 256TOPS (INT8),是上一代產品思元 270 算力的 2 倍。相較於峰值算力的提升,思元 370 在實測效能和能效方面的表現更為優秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長)實測效能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長)實測效能與同尺寸主流 GPU 相當,能效則大幅領先。

▲ 7nm 先進工藝和全新 MLUarch03 架構加持,

思元 370 實測效能和實測能效超市場主流 GPU 產品

* 測試環境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 資料:ResNet-50 來自於相關產品官網,Transformer、VGG16、YOLOv3 均取自實測最大吞吐效能。

思元 370 全面加強了 FP16、BF16 以及 FP32 的浮點算力,同時支援推理和訓練任務。此外,思元 370 還是國內第一顆支援 LPDDR5 的雲端 AI 晶片,記憶體頻寬是上一代產品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。

▲ 寒武紀智慧晶片架構演進

思元 370 採用 chiplet(芯粒)技術,在一顆晶片中封裝 2 顆 AI 計算芯粒(MLU-Die),每一個 MLU-Die 具備獨立的 AI 計算單元、記憶體、IO 以及 MLU-Fabric 控制和介面,通過 MLU-Fabric 保證兩個 MLU-Die 間的高速通訊,可以通過不同 MLU-Die 組合規格多樣化的產品,為使用者提供適用不同場景的高性價比 AI 晶片。

▲ 思元 370 採用 chiplet 技術,可實現不同算力、記憶體和編解碼器的組合

MLU-Fabric 是實現芯粒技術的關鍵所在。它為兩個 MLU-Die 提供低功耗、低延時和超高頻寬的互聯,支援晶片上實現統一的記憶體獲取和地址對映,建立虛擬通路避免程序死鎖,支援資料校驗錯誤發生時進行資料重傳,保證資料準確性。

得益於芯粒技術,思元 370 可通過不同的組合為客戶提供更多樣化的產品選擇,此次寒武紀釋出了兩款加速卡,未來還將推出更多基於思元 370 的產品。

MagicMind 是寒武紀全新打造的推理加速引擎,也是業界首個基於 MLIR 圖編譯技術達到商業化部署能力的推理引擎。MagicMind 支援跨框架的模型解析、自動後端程式碼生成及優化。在 MLU、GPU、CPU 訓練好的演算法模型上,藉助 MagicMind,使用者僅需投入極少的開發成本,即可將推理業務部署到寒武紀全系列產品上,並獲得頗具競爭力的效能。

MagicMind 的優勢不僅在於可以提供極致的效能、可靠的精度以及簡潔的程式設計介面,讓使用者能夠專注於業務本身,無需理解晶片更多底層細節就可實現模型的快速高效部署,MagicMind 外掛化的設計還可以滿足在效能或功能上追求差異化競爭力的客戶需求。

▲ 推理加速引擎 MagicMind 是寒武紀軟體棧 Cambricon Neuware 全新升級的重要組成部分

為了加快使用者端到端業務落地的速度,減少模型訓練研發到模型部署之間的繁瑣流程,寒武紀的統一基礎軟體平臺 Cambricon Neuware 整合了訓練和推理的全部底層軟體棧,包括底層驅動、執行時庫、運算元庫以及工具鏈等,將 MagicMind 和深度學習框架 Tensorflow,Pytorch 深度融合,實現訓推一體。依託於訓推一體,在寒武紀全系列計算平臺上,從雲端到邊緣端,使用者均可以無縫地完成從模型訓練到推理部署的全部流程,進行靈活的訓練推理業務混布和潮汐式的業務切換,可快速響應業務變化,提升算力利用率,降低運營成本。

在通用性方面,Cambricon Neuware 支援 FP32、FP16 混合精度、BF16 和自適應精度訓練等多種訓練方式並提供靈活高效的訓練工具,高效能運算元庫已完整覆蓋視覺、語音、自然語言處理和搜尋推薦等典型深度學習應用,可滿足使用者對於運算元覆蓋率以及模型精度的需求。

全新推理加速引擎 MagicMind 和訓推一體特性,將為使用者帶來更為便捷、高效的開發體驗,大幅降低學習成本、開發成本和運營成本。

思元 370 升級了視訊影象編解碼單元,可提供更高效的視訊處理能力和更優的編碼質量,支援更復雜、更繁重、低延時要求的計算機視覺任務。

解碼方面,思元 370 集成了強大的媒體效能,可支援 132 路 1080p 視訊解碼或 10 路 8K 視訊解碼。編碼方面,全新編碼器通過靈活的位元速率優化(RDO)控制、多參考幀、二次編碼等特性組合,在相同影象質量(全高清視訊 PSNR)的情況下比上一代產品節省 42% 頻寬,有效降低頻寬成本。

▲ 思元 370 視訊編碼質量顯著提升

* 測試環境:

MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

視訊內容:BQTerrace_1920x1080_60.yuv

寒武紀高在思元 370 晶片內建安全模組,切實保障使用者資訊保安。思元 370 是寒武紀第一顆支援國內外主流加密標準的雲端晶片,支援使用者資料、深度學習模型的加解密以及計算結果的加密輸出,通過信任根的方式,保障 AI 晶片在啟動及執行過程中載入的所有程式碼的安全性,還支援遠端認證,使用者可在業務執行過程中遠端驗證 AI 環境安全性。通過多方面的安全特性,思元 370 系列產品將更好地確保使用者 AI 業務安全。

▲ 安全啟動驗證過程

此次釋出中,兩款基於思元 370 的加速卡正式亮相:高密度、半高半長、功耗 75W 的 MLU370-S4 智慧加速卡和高效能、全高全長、功耗 150W 的 MLU370-X4 智慧加速卡。與上一代產品相比,370 系列加速卡在效能、能效方面都有更為卓越的表現。例如,對標準 ResNet-50v1 進行軟體定製優化後,MLU370-X4 加速卡效能高達 30204fps。

▲ 寒武紀 MLU370-S4 加速卡

在 Cambricon Neuware SDK 上實測,在常用的 4 個深度學習網路模型上,MLU370-S4 加速卡的效能平均接近市場主流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 優勢更為明顯,處理相同 AI 任務相較於 70W GPU 用電量減少 50% 以上,將有力地幫助使用者實現“雙碳”目標。

▲ 相比主流同尺寸 GPU 產品,

MLU370-S4 加速卡效能優勢明顯

* 測試環境:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 資料來自於相關產品官網。

MLU370-S4 加速卡在解碼方面具有強勁競爭力,相較於同尺寸 GPU,可提供 3 倍的解碼能力和 1.5 倍的編碼能力。總體而言,MLU370-S4 加速卡的能效出色,體積小巧,可在伺服器中實現高密度部署。

▲ 寒武紀 MLU370-X4 加速卡

MLU370-X4 加速卡的優勢則表現為高效能,算力可達 256TOPS (INT8),加強了 FP16、FP32 的計算效能,新增 BF16 計算型別。

在 Cambricon Neuware SDK 上實測,常用的 4 個深度學習網路模型中,MLU370-X4 加速卡與市場主流 150W GPU 相比,效能表現 2 項持平 2 項更優,實測能效則為 GPU 的 2 倍。比如 YOLOv3 網路中,MLU370-X4 的效能是 150W GPU 效能的 1.5 倍,能效為 GPU 的 2.5 倍。

▲ 相比主流 GPU 產品,MLU370-X4 效能領先

* 測試環境:

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 資料:ResNet-50 來自於相關產品官網,Transformer、VGG16、YOLOv3 均取自實測最大吞吐效能。

▲ MLU370-S4、MLU370-X4 加速卡規格