1. 程式人生 > 資訊 >Arm v9 架構詳解:能否實現 CPU 計算 “統治”

Arm v9 架構詳解:能否實現 CPU 計算 “統治”

4月1日訊息本週三,Arm 釋出了最新一代架構 Arm v9,這一架構是在目前已經廣泛使用的 Armv8 的基礎上,面向未來十年的新一代架構。

Armv9 架構有三個系列,分別是針對通用計算的 A 系列,實時處理器的 R 系列,微控制器的 M 系列,預計未來兩代移動基礎設施 CPU 的效能提升將超過 30%。首款基於 Armv9 架構 CPU 的移動處理器最快將在今年底問世,可能來自 MediaTek。

Arm v9 架構的初代版本增強了安全性、機器學習、DSP 效能,Arm v9 架構未來也將持續增強這些效能,並將加入新特性。

最近幾年,Arm 架構處理器已經從智慧手機為代表的終端向對效能要求更高的 PC、資料中心延伸。從最新的釋出可以看到,Arm 希望 Arm v9 架構 CPU 以及基於其 GPU、NPU 處理器能夠無處不在。如果 Arm 的目標能夠實現,是否可以實現 CPU 計算統治?Arm 的第三個 1000 萬出貨目標多久能夠達成?

安全是發揮計算架構潛能最大的挑戰

Arm v9 架構的釋出會上,安全性被頻頻提及,與安全相關的技術和介紹的篇幅也很長。Arm 高階副總裁、首席架構師兼技術院士 Richard Grisenthwaite 解釋稱,“我看來,計算若要充分發揮潛能,安全是最大的挑戰,越來越多的私人資料被存放在計算系統中,這讓這些資料成為安全攻擊的誘人目標。今年網路犯罪損失的金額預估高達 6 萬億美元。”

因此,Armv9 架構在安全性方面做了多方面的工作。首先是引入了 Arm 機密計算架構(Confidential Compute Architecture, CCA),機密計算通過打造基於硬體的安全執行環境來執行計算,保護部分程式碼和資料,免於被存取或修改,甚至不受特權軟體的影響。

Arm CCA 將引入動態建立機密領域(Realms)的概念,機密領域面向所有應用,執行在獨立於安全或非安全環境之外的環境中,實現保護資料安全的目的。比如,在商業應用中,機密領域可以保護系統中商用機密資料和程式碼,無論它們正被使用、閒置或正在傳輸中。

據悉,Arm 會在今年下半年公佈 Arm CCA 的更多資訊。

記憶體標籤擴充套件是 Armv9 架構的另一項安全技術。Richard Grisenthwaite 說:“在分析了全球軟體報告的大量安全問題後,我們發現許多問題的根源實際上與過去記憶體安全的老問題有關。這些問題已經困擾計算領域 50 年,兩個持續多年特別常見的記憶體安全問題——快取溢位和釋放後重用。很大一部分的問題是,這些記憶體安全漏洞被利用之前就能發現問題,這是提高全球軟體安全至關重要的一步。”

Arm 持續與谷歌合作開發的 “記憶體標籤擴充套件”技術,可以在軟體中查詢空間和時間記憶體安全的問題,允許軟體將指向記憶體的指標與標籤建立關聯,並在使用指標時檢查這個標籤是否正確。

Richard 稱,記憶體標籤擴充套件是明年上市的第一代 Armv9 CPU 不可或缺的一部分。支援記憶體標籤擴充套件的軟體也正被引入到安卓 11 系統和 OPENSUSE。

Arm 還與劍橋大學在其 CHERI 架構上合作多年,從架構底層來提升安全性。據介紹,CHERI 架構定義了可提供這種封裝能力的硬體功能,這在未來將可能促成一個本質上更為安全的計算平臺,但這也會使某些系統的變成方式產生重大改變。

不過,這種架構 Arm 已經在和其合作伙伴探索,如果成功,會在未來 5-6 年引入 Armv9 架構,成為 Armv9 架構主要的元件之一。

未來兩代 Armv9 架構 CPU 效能提升將超過 30%

安全性是計算架構的基礎,效能提升則是滿足越來越高的計算需求以及多樣化計算需求的關鍵。Arm 預計,新一代架構 Armv9 將保持超過業界 CPU 效能提升的速度,未來兩代移動和基礎設施 CPU 的效能提升將超過 30%。

Richard 強調:“這個資料是根據業界標準評測工具來衡量,30% 的算力提升完全是憑藉於本身架構而不是藉助於製程工藝來實現。”

計算效能提升非常重要的驅動力就是 AI,Statista Research Department 今年 1 月釋出的最近報告估計,到 21 世紀 20 年代中期,全球將有超過 80 億臺搭載 AI 語音輔助的裝置。不同裝置對於 AI 效能的需求不同,也就需要不同的 AI 處理器。

Arm 與富士通合作開發了可伸縮向量擴充套件(Scalable Vector Extension, SVE)技術並用在了全球最快的超級計算機 “富嶽”上。在 SVE 的基礎上,Armv9 中使用了新開發的 SVE2 技術,增強了對在 CPU 上本地執行的 5G 系統、虛擬和增強現實以及 ML 工作負載的處理能力,能夠提供實現增強的機器學習和數字訊號處理能力。

“我們還將通過提升頻率、頻寬、快取大小、並減少記憶體延遲,以最大化 CPU 效能。”Richard 表示。

在解決新問題的過程中,Arm 加入了一些複雜技術,這是否違背了精簡指令集(RISC)的初衷?Richard 的觀點是:“Arm 架構的精簡指令(RISC)核心沒有改變,我們依然遵循著註冊到註冊 (registration to registration) 的操作原則,所以從硬體的角度來看,Arm 指令集仍然保持著精益性。”

Arm 稱,除了大幅增強 CPU 內的矩陣乘法,Mali GPU 和 Ethos NPU 也會持續進行 AI 創新,擴充套件 Arm 的技術能力。

統治 CPU 計算

目前,CPU 領域最成功的架構當屬 x86,不過 x86 的成功和統治力在於 PC 和高效能運算市場,在 Arm 擅長的智慧終端市場並不成功。近幾年,Arm 架構在高效能運算領域取得了一些進展,包括上面提到的 “富嶽”超級計算機,以及推出採用 Arm 架構的多款伺服器。去年,蘋果 M1 處理器 Macbook Pro 電腦的推出,也讓業界看到了 x86 架構在 PC 市場的統治地位並非牢不可破。

Arm 執行長 Simon Segars 說,“Arm 晶片實現 1000 億顆的出貨花了 26 年,如果預測準確,接下來一年,我們的合作伙伴出貨的 Arm 晶片將累計達到 2000 億顆。也就是說,我們的第二個 1000 億的出貨將在短短 5 年內達成。”

目前 Arm 架構的晶片出貨已經超過 1800 億顆,Armv9 架構會成為實現 Arm 晶片 3000 億顆晶片出貨的先驅。沒有人能準確預估 Arm 實現第三個 1000 億顆晶片出貨的時間,但可以明確的是 Arm 希望其晶片能夠為所有智慧計算提供算力,也就是讓其晶片在未來無處不在。

為了實現這個目標,同時滿足行業從通用計算向普遍的專用處理髮展的需求,Arm 也開始強調全面計算的理念。全面計算設計方法包含 Arm 的 CPU、GPU、NPU,通過將全面計算的設計原則應用在包含汽車、客戶端、基礎設施和物聯網解決方案的整個 IP 組合中。

與此配合,Arm 也需要在標準化程度上取得平衡。Richard 說:“如果過多的標準化,那麼合作伙伴將無法開發合適的專用解決方案。而如果太少的標準化,我們得承擔低價值、形同實異的解決方案的風險。這將讓軟體生態系統的成本增加、且毫無益處。”

Arm 在伺服器領域中已經看到了標準化平衡的價值,推出了 “伺服器基礎架構 SBSA”和相關的認證計劃 “伺服器就緒”。

“我們也正在擴大標準化的範圍,Arm SystemReady 將伺服器就緒計劃的概念從雲端延伸到物聯網邊緣等廣泛的裝置上,以實現通用作業系統及虛擬機器管理程式之間的互動運作。”Richard 說。

如果 Arm 的全面計算以及標準化探索成功,從終端到邊緣再到雲端,Arm 是否就能夠實現在未來的計算統治?實現 3000 億顆甚至更多晶片出貨又會有多快呢?

小結

現在看來,有兩大方面的阻礙,一方面是在複雜的國際形勢下,同屬精簡指令集的 RISC-V 正在快速發展,加上 x86 陣營 intel 和 AMD 也在加強 x86 的競爭力,Arm 要真正撼動 x86 的優勢領域並非易事。

另一方面,中國作為晶片進口的大國,Arm 與 Nvidia 的收購交易,以及美國對中國領先晶片設計公司的出口限制,讓客戶產生擔憂。

對於 Armv9 是否以供給包括華為在內的中國企業的問題,Arm 的官方回覆是:“Arm 既有源於美國的 IP,也有非源於美國的 IP。經過全面的審查,Arm 確定其 Armv9 架構不受美國出口管理條例 (EAR)的約束。Arm 已將此通知美國政府相關部門,我們將繼續遵守美國商務部針對華為及其附屬公司海思的指導方針。”

這樣的回覆,不知你怎麼看?