1. 程式人生 > 資訊 >蘋果效能最強 M1 Ultra 晶片解密:業內首個 GPU 裸片整合,如何實現?

蘋果效能最強 M1 Ultra 晶片解密:業內首個 GPU 裸片整合,如何實現?

這顆採用 2.5D 封裝的晶片十分符合其“Ultra”的名頭:通過矽中介層將兩個 M1 Max 裸片整合在一起,帶來了驚人的 2.5TB / 秒的頻寬。但亮點卻在於,M1 Ultra 首次實現了兩顆 GPU 裸片的整合。這是過去的幾年來,AMD、英偉達、英特爾都宣稱要做,卻至今未能做到的成就。

憑藉這一突破,蘋果終於如願以償地在 GPU 領域對英偉達構成了挑戰。據蘋果所說,M1 Ultra 的 GPU 效能超過了英偉達的 GeForce RTX 3090,後者是目前市面上速度最快的 GPU。

踏入自研晶片領域不過幾年的蘋果,究竟是如何做到業內首個 GPU 裸片整合的?而這一技術的實現,又將為巨頭爭霸的 GPU 市場,帶來什麼樣的變局?

圖源:蘋果

AMD、英偉達紛紛折戟 GPU 裸片整合難在哪?

自 MCM(Multi Chip Module,多晶片模組)技術誕生以來,像搭建樂高一樣,在單一晶片中實現不同技術節點、不同功能的裸片的整合堆疊,成為了摩爾定律之外,半導體技術發展的另一路徑,其本質在於將多個裸晶片和其它元器件組裝在同一塊多層互連基板上。

隨著臺積電、三星、英特爾的 2.5D / 3D 封裝逐漸成熟、商業化,在高階處理器領域,單顆晶片中 CPU 與 Memory、GPU 與 memory 的裸片整合,已不再是新鮮事。然而,兩顆 GPU 裸片的整合,在蘋果 M1 Ultra 釋出之前,只存在於英偉達、AMD、英特爾的 PPT 中。

2017 年,英偉達發表論文詳細解釋了一種名為可組合封裝 GPU(Composable On-Package Architecture GPU,COPA GPU)的架構,核心在於將多個 GPU 模組和記憶體系統模組整合。同年,AMD 對外展示了由四個 GPU 裸片整合的 MCM 設計,宣稱其效能將比當時最大的單片 GPU 的效能高 45.5%。

COPA GPU;來源:英偉達

然而,直到後來者英特爾在今年年初提出了一種 GPU 裸片整合解決方案,英偉達和 AMD 的多裸片整合 GPU 仍未問世。當然,AMD、英偉達的 Instinct MI200 系列和 Hopper 系列據稱均有望在今年年底前姍姍來遲,但顯然,拖延症讓他們在“業內首個”上輸給了蘋果。

這種“拖延症”背後的無奈,是市場和技術兩個方面的。廈門雲天董事長於大全教授對筆者表示,過去對處理器的要求不那麼高,一顆 GPU 裸片就夠了,兩顆整合的成本過高。這也與此前一些業內觀點一致。有評論甚至認為,對 GPU 需求最大的遊戲領域,這樣的設計並無價值。

2020 年初,時任 AMD Radeon 技術事業部工程研發高階副總裁的 David Wang 在接受外媒採訪時就表示,多裸片整合的 GPU 幾乎不可能出現在 2021 年釋出的 Navi 系列產品中,“我們正在研究 MCM 架構,”他說,“但我們尚未得出結論,這是一種可以應用於傳統遊戲 GPU 的架構。”

市場未成氣候外,技術難點則是 GPU 裸片整合的最大痛點。據於大全介紹,與 CPU+Memory 或 GPU+Memory 的裸片整合相比,GPU+GPU 的裸片整合最大的難點在於線路更細更密,就需要更多的介面(I / O),為此,就需要將用於引出裸片訊號的凸點間距縮小到 50/40um 規格以下。

紅框標註為凸點;圖源:英特爾

後來者蘋果彎道超車 臺積電無凸點技術幫了大忙?

從目前業內最前沿技術來看,凸點間距縮小到 20um 以下已成為 2.5D / 3D 封裝的一大門檻,英特爾、臺積電均已將此作為先進封裝的研發重點,例如英特爾的 Foveros 就將凸點間距縮小到 10um,而臺積電的想法更加跳躍,提出了“無凸點”互連方法 SoIC,而這或許正是幫助蘋果彎道超車的利器。

從 C4 凸點到無凸點;圖源:臺積電

根據臺積電此前介紹,SoIC 是對前道晶片堆疊技術的統稱,主要特徵是不再使用後道整合所用的凸點技術,轉而直接將裸片堆疊到一起。這種方法除了沒有“凸點間距”這一緊箍咒外,還能大大降低熱阻,不過缺點是必須在晶片最開始設計時就要一起被確定,技術要求自然更高。

據於大全介紹,蘋果很早就開始與臺積電共同研究無凸點連線方法,因此其也推測,正是這種技術,幫助蘋果 M1 Ultra 實現了 GPU 裸片整合。“(裸片與裸片間互聯)最終的解決方案就是無凸點,就是上下裸片之間銅對銅、介質層對介質層的這種鍵合。”於大全說。

這種推論是有理由成立的。雖然蘋果在通稿中僅透露使用了在 2.5D 封裝常用的矽中介層,但結合蘋果官方給出的宣傳視訊和動畫模型來看,似乎使用了某種小型 Si 橋,在生產中實際上與英特爾的 EMIB 或 AMD 的 Elevated Fanout Bridge (EFB)相似,兩者均無凸點設計。

除此之外,蘋果是否為其 GPU 裸片整合設計了新的介面 IP 也讓人浮想。這一點在蘋果的新聞通稿中未置一詞,但從技術實現上來看,介面 IP 的重要性幾乎僅次於微凸點和 TSV 技術。於大全也表示,介面 I / O 變多,必須要採用新的解決方案。這也是英偉達、AMD 此前的重要發力點。

AMD 於 2020 年初宣佈,將 Infinity Fabric 匯流排互聯技術升級至 Infinity Architecture,除了支援 CPU-CPU 整合外,還支援最多 8 個 GPU 晶片的連線以及 CPU-GPU 整合。同時表示,其新一代 El Capitan 超級計算機將搭載 Infinity Architecture,Genoa EPYC 基於 Zen 4 架構,1 個 CPU 與 4 個 GPU 裸片整合。

英偉達早在 2014 年即推出了 NVLINK,實現了晶片層級的 GPU 的高速互聯,2016 年,釋出了搭載 NVLINK 的第一款產品 P100,此後不斷進行更新換代,並在 NVLINK 的基礎上推出了 NVIDIA NVSwitch,可在單個伺服器節點中支援 8-16 個全互聯的 GPU,實現更高速度的通訊。

需要指出的是,在這一層面上,蘋果方面的進展目前只能停留在猜測階段,但蘋果從來不會在技術不成熟的時候就推出產品,可以試圖推斷,蘋果雖然並未在新聞稿中提到介面 IP,但並不代表其在此方面並無突破,更大的可能是其對關鍵技術仍然有所保留。

寫在最後

無論如何,M1 Ultra 的推出,除了再次拔高外界對蘋果晶片能力的預期之外,還將 GPU 能力的擴充套件真正與先進封裝綁定了起來,雖然 GPU 進入多裸片整合時代是早就被預測的,但被產品搭載進入商業化量產是完全不同的概念,且實現這一目標的是這一市場的新入者蘋果,就更加耐人尋味。

這或許將意味著,在 GPU 領域,先進封裝有望成為 X 因素,打破當前英特爾、AMD、英偉達三強爭霸的格局,而掌握最高階先進封裝技術的臺積電亦或是英特爾,將擁有更大的話語權。