1. 程式人生 > 其它 >AMD與Intel,挑戰英偉達GPU

AMD與Intel,挑戰英偉達GPU

 

AMD與Intel,挑戰英偉達GPU

作為CPU界的霸主,英特爾對高效能GPU市場一直沒有死心。從1998年和Real3D合作推出的i740獨顯,到2009年無故流產的Larrabee獨顯,再到去年公佈的Xe GPU架構。任誰來都能看出,英特爾進軍獨立顯示卡市場只是時間問題。

對於NVIDIA和AMD來說,英特爾的加入聽起來似乎是個壞訊息。但是對於消費者而言,英特爾的加入無疑給了更多的選擇。問題來了,英特爾“銳炫”系列高效能顯示卡究竟能夠給出怎樣的效能表現?英特爾能否通過在GPU市場上的發力,給友商NVIDIA和AMD持續帶來壓力呢?

近些年來,英特爾在獨顯領域可謂動作頻頻。他們積極擴充研發團隊,接連從隔壁NVIDIA、AMD那裡挖走高階人才,其中不乏AMD RTG顯示卡部門前負責人Raja Koduri,AMD Zen架構功勳領袖Jim Keller和NVIDIA DLSS技術人員Anton Kaplanyan等。可以看出,在11代CPU被AMD Zen 3系列處理器擊敗後,這一次,英特爾是希望能夠做出一番成績的。

問題在於,此次英特爾需要挑戰的對手NVIDIA,在圖形處理上是比AMD更加老練的對手。長期以來,全球消費級高效能顯示卡市場的主要份額基本被英偉達全盤佔據,儘管AMD在去年推出了RX 6000系列顯示卡,效能已經非常接近定位相同的RTX 30系列,但是在產能和評價方面依然無法和NVIDIA抗衡。如何從根深蒂固的NVIDIA手上搶走客戶,將成為英特爾面臨的最大難題。

不過,對英特爾來說,好訊息也是存在的。因為全球虛擬貨幣熱度不減,以及晶片供應鏈的緊張,NVIDIA旗下RTX30系列高階顯示卡自發售以來價格便居高不下,很多消費者根本就購買不到新款顯示卡。在DIY市場被挖礦搞得半死,NVIDIA顯示卡大面積缺貨的背景下,英特爾的“銳炫”獨顯可能會得到比正常情況更多的份額。

英特爾獨顯的上線,短期內受影響最大的應該是中低端顯示卡市場,也就是GT1030這種亮機卡,甚至還有可能威脅到GTX 1650、GTX1660這種祖傳卡,但暫時應該無法在更高階顯示卡市場對NVIDIA和AMD構成實質性的威脅。不過對於消費者而言,獨顯市場多一個品牌,自然就多一份選擇的空間。從二人轉變成三足鼎立,還是對玩家有好處的。

本文參考文獻連結

https://www.nextplatform.com/2021/09/20/esperanto-chip-drives-ml-inference-performance-and-power-efficiency/

https://mp.weixin.qq.com/s/LrbxIQ2hmNW3RPUqs1glFQ

https://baijiahao.baidu.com/s?id=1708422385375788751&wfr=spider&for=pc

因為擁有強悍的GPU,英偉達在多個領域擁有強悍的競爭力,這就吸引了更多的廠商進去其專注的市場,英特爾和AMD就虎視眈眈。

Nvidia 並不是唯一一家建立了專門計算單元的公司,這些計算單元擅長支援 AI 訓練的矩陣數學和張量處理,並且可以重新用於執行 AI 推理。英特爾已經收購了兩家這樣的公司——Nervana Systems,緊隨其後的是 Habana Labs,這都是他們叫板Nvidia 的 “武器”。
英特爾是一家優秀的公司,正在追逐該公司認為在未來五年內將產生 500 億美元的人工智慧計算機會(用於訓練和推理),從現在到 2027 年以 25% 的複合年增長率增長,以達到這一水平。鑑於“Ponte Vecchio”Xe HPC GPU 加速器中的大量矩陣和向量數學,以及即將推出的“Sapphire Rapids”Xeon SP CPU 中的 AMX 矩陣數學單元中很可能有足夠的推理能力,有理由想知道有多少英特爾預計出售的Gaudi訓練和Goya 推理晶片。

英特爾在 2016 年 8 月完成 3.5 億美元的 Nervana Systems 交易和 2019 年 12 月以 20 億美元收購 Habana Labs時,在追求智慧財產權和人才,當然,因為這就是這場 IT 戰爭的打法,但一直想知道如果這些裝置以及來自競爭對手 GraphCore、Cerebras、SambaNova Systems 和 Groq 的非常優雅和有趣的設計能夠部署在類似於主流的東西中。私募股權投資者一直渴望搭上這輛 AI 芯汁列車,並進行了大量投資,上述四家公司迄今共籌集了 28.7 億美元。
陪審團仍未出局,所有這些產品都剛剛起步,這就是為什麼英特爾在 Nervana 和 Habana 上對衝它的賭注,就像它對資料中心中的 FPGA 感到害怕(主要歸功於 Microsoft Azure)並於2015 年 6 月斥資 167 億美元收購 Altera。在 2015 年到 2020 年間,當英特爾在資料中心計算領域佔據主導地位時,試圖通過 Xeon CPU 計算來消除對其霸權地位的所有可能威脅,有能力購買一些競爭對手。
現在,既然它想起了需要再次成為代工廠,就不能再做出如此昂貴的進攻演習了,這些進攻實際上既是防守又是進攻。現在是時候嘗試將其支付給 Nervana 和 Habana 的部分錢賺回來了。目前尚不清楚英特爾是否能夠收回所有資金,即使做出了 23.5 億美元的投資,但正如所說,也許這不是重點。也許關鍵是要對 GraphCore、Cerebras、SambaNova Systems 和 Groq 進行反駁,因為英特爾在其 Xeon SP CPU 中添加了 AI 功能,並在今年推出了其獨立 GPU。(Wave Computing 籌集了 2.033 億美元用於開發其 AI 晶片,於 2020 年 4 月破產,一年後成為 MIPS 晶片技術的供應商,因此不再將其視為 AI 晶片的競爭者。)
在本週舉行的 Intel Vision 2022 大會上,Gaudi2 AI 訓練晶片是這家晶片製造商推出的新的大型計算引擎,並不是英特爾實際製造的晶片,而是與其前身Gaudi1一樣,由競爭對手臺積電製造。
與 Nervana Systems 一樣,Habana Labs 非常認真地建立了一組晶片,為 AI 工作負載提供最佳價效比和最佳效能。Habana Goya HL-1000 推理晶片於 2019 年初發布Gaudi1 AI 訓練晶片,也稱為 HL-2000,於當年夏天晚些時候首次亮相
Gaudi1 架構有一個通用矩陣乘法 (GEMM) 前端,後端有 10 個張量處理器核心或 TPC,該晶片僅向用戶公開了其中的 8 個,以幫助提高封裝的良率。(顯然,在英特爾收購 Habana Labs 後的某個時候,額外的兩個張量核心暴露出來了。)
Gaudi1 使用了第二代 TPC,Goya HL-1000 AI 推理晶片使用了不那麼強大和不那麼複雜的原始 TPC 設計。Gadui1 晶片中的 TPC 可使用 C 程式語言直接定址,具有張量定址,並支援 BF16 和 FP32 浮點以及 INT8、INT16 和 INT32 整數格式。TPC 指令集具有加速 Sigmoid、GeLU、Tanh 和其他特殊功能的電路。
Gaudi1 採用 TSMC 的 16 奈米工藝實現,具有 24 MB 片上 SRAM、四組 HBM2 記憶體,容量為 32 GB,頻寬為 1 TB/秒。Gaudi1 插入 PCI-Express 4.0 x16 插槽並消耗 350 瓦的電量,並將幾乎所有的電量都轉化為熱量,就像晶片一樣。(少量能量用於操作和儲存資訊。)

 一個由 8 個 Gaudi2 伺服器組成的叢集,每個伺服器有 8 個 Gaudi2 卡。

英特爾尚未透露對 Gaudi2 架構的深入瞭解,但這就是所知道的。
藉助 Gaudi2,英特爾正在轉向臺積電的 7 奈米工藝,隨著這種微縮,能夠將晶片上的 TPC 數量從 10 個增加到 24 個,並增加了對 Nvidia 新的 8 位 FP8 資料格式的支援。使用 FP8 格式,開發者現在可以擁有相同格式的低解析度推理資料和高解析度訓練資料,並且在從訓練轉移到推理時不必在浮點和整數之間轉換模型。這對 AI 來說是一個真正的福音,儘管較低精度的整數格式可能會在矩陣和向量計算引擎中保留多年,以支援遺留程式碼和其他型別的應用程式。
Gaudi2 晶片有 48 MB 的 SRAM——如果它與 TPC 數量成線性比例,您會期望 2.4 倍而不是 2 倍的 SRAM,或 57.6 MB。
掛在 Gaudi2 晶片上的是 HBM2e 記憶體組,提供 2.45 TB/秒的頻寬,Gaudi1 晶片的 2.45 倍。HBM2e 記憶體組的數量沒有透露,但 Gaudi2 有 6 個 16 GB HBM2e 組,而 Gaudi1 有 4 個 8 GB HBM2 組。僅增加兩個 HBM2e 記憶體控制器就可以將頻寬提高 1.33 倍,剩餘的頻寬增加來自於提高記憶體速度。
Gaudi1 晶片有十個支援 RoCE 直接記憶體訪問協議的 100 Gb/秒乙太網埠——事實證明,每個 TPC 一個,但當時並不知道,因為只顯示了八個。但 Gaudi2 有 24 個乙太網埠,以100 Gb/秒的速度執行,每個 TPC 也有一個。功率為 650 瓦。假設該裝置插入 PCI-Express 5.0 插槽,但英特爾尚未證實這一點。
假設沒有重大的架構變化和工藝從 16 奈米縮小到 7 奈米並沒有帶來時鐘速度適度提升,預計 Gaudi2 晶片將提供大約 2.5 倍的 Gaudi2 效能。(還假設任何給定應用程式的處理精度相同。)但英特爾實際上並沒有說明是否有任何架構變化(除了添加了一些媒體處理功能)以及時鐘速度如何變化,所以有來推斷。
通過檢視這張關於 ResNet-50 機器視覺訓練操作的圖表來做到這一點,該圖表將 Gaudi1 和 Gaudi2 與過去兩代 Nvidia GPU 加速器進行對比:

 根據這個 ResNet-50 比較,Gaudi2 的效能是 Gaudi1 的 3.2 倍,但很難估計效能有多少是由於晶片容量的增加。這個特定的測試執行 TensorFlow 框架來進行影象識別訓練,顯示的資料是每秒處理的影象數量。

沒有顯示但很重要的一件事是 Gaudi2 加速器將如何疊加到 Hopper GPU,但 Nvidia 尚未透露任何特定測試的效能結果。但由於 H100 中的 HBM3 記憶體執行速度比 A100 加速器中使用的 HBM2e 記憶體快 1.5 倍,而 FP16、TF32 和 FP64 在新張量核心上提供 3 倍的效能,因此可以合理地預期 H100 將提供介於在 ResNet-50 視覺訓練工作負載上的效能是 1.5 倍和 3 倍,因此 H100 在 ResNet-50 測試中每秒可提供 4,395 到 8,790 張影象的效能。將比前者更接近後者,並且比英特爾可以通過 Gaudi2 提供的優勢有相當大的優勢。
與使用 BERT 模型的自然語言處理相比,影象識別和視訊處理相對容易。以下是 Gaudi2 與 Nvidia V100 和 A100 的對比,請注意 Gaudi1 的缺失:

 BERT 模型也在 TensorFlow 框架之上執行,該資料顯示了在兩個不同的訓練階段中每秒吞吐量的序列數。Habana Labs 部門的首席商務官 Eitan Medina 在一次簡報中表示,Gaudi2 的效能幾乎是 A100 的 2 倍。但 H100 擁有自己的 FP8 格式和 Transformer 引擎,可以動態地改變 AI 訓練工作流程不同部分的資料和處理精度,可以做得更好。但強烈懷疑 Nvidia 至少可以縮小與 Gaudi2 的差距,並且很有可能超越。

為了讓事情變得有趣,英特爾在 Amazon Web Services 上啟動了 DL1 Gaudi1 例項,然後分別基於 A100 和 V100 GPU 啟動了 p4d 和 p3 例項,並進行了一些價效比分析以計算在 ResNet 中識別的每張影象的成本-50 基準。看看這個:

 這張圖表的意思是,Gaudi1 的效能略好於 V100——使用英特爾在上圖中針對 ResNet-50 的效能資料顯示了 27.3%——而且價效比高了大約 60%,這意味著 DL1 例項的成本大大低於使用 V100 的 p3 例項。隨著遷移到具有 40 GB HBM2e 記憶體的基於 A100 的 p4d 例項,Nvidia 裝置在 ResNet-50 上的吞吐量比 Gaudi1 高 58.6%,但 Gaudi1 處理每個影象的成本降低了 46%。這意味著 A100 例項確實要貴一些。如果對 Hopper GPU 加速器定價的猜測是正確的,而 Nvidia 對大約 3 倍的效能收取大約 2 倍的費用,英特爾將不得不將出售給 AWS 的 Gaudi2 晶片的價格保持在 AWS 仍然可以顯示出比執行 AI 訓練的 H100 例項更好的價效比的地方。

在這一切中,Trainium 在哪裡?
無論如何,英特爾在其實驗室中運行了超過 1,000 個 Gaudi2,因此它可以調整 SynapseAI 軟體堆疊,其中包括在 Habana 的圖形編譯器、核心庫和通訊庫上執行的 PyTorch 和 TensorFlow 框架。值得一提的是,Gaudi2 晶片現已發貨。
除了 Gaudi2 晶片,英特爾還在預覽其 Goya 後續的 Greco 推理引擎,該引擎也在臺積電製造。

 Greco 推理卡具有 16 GB 的 LPDDR5 主記憶體,提供 204 GB/秒的記憶體頻寬,而之前的 Goya 推理引擎使用 16 GB 的 DDR4 記憶體塊提供 40 GB/秒的記憶體頻寬。Habana 架構的這種 Greco 變體支援 INT4、BF16 和 FP16 格式,功耗為 75 瓦,大大低於 2019 年初宣佈的 HL-1000 裝置的 200 瓦。如上圖所示,它被壓縮到更緊湊的半高、半長 PCI-Express 卡。目前還沒有關於這款產品的效能或價格的訊息。

除了英特爾以外,AMD也更新了GPU產品線,以挑戰英偉達。

AMD 釋出 Radeon RX 6950 XT、6750 XT 和 6650 XT

AMD 今天早上揭開了三款新的 Radeon RX 6000 系列顯示卡的面紗,以完善其產品堆疊。新的產品涵蓋了從中端到旗艦市場的所有市場,其中, Radeon RX 6950 XT、RX 6750 XT 和 RX 6650 XT 將作為 Radeon 系列的中代產品釋出,為 AMD 最重要的顯示卡提供最後的效能提升. 利用更新的 18Gbps GDDR6 記憶體以及略微改進的時鐘速度,今天釋出的新卡承諾適度的效能提升,同時讓 AMD 有機會展示他們的 RDNA2 GPU 架構在經過近 18 個月的改進後可以做什麼。
從高層次上看,這三款新卡都是對 AMD 現有 Radeon RX 6900 XT、RX 6700 XT 和 RX 6600 XT 部件的小更新。為了利用 18Gbps GDDR6 不斷增加的可用性,AMD 選擇將其配備到 RX 6000 系列中的三款最重要的卡上,以便提供適度的記憶體頻寬提升。與此同時,AMD 也在利用這個機會來提高效能——無論是形象上還是字面上——稍微提高顯示卡的 TDP 以允許稍微更高的 GPU 時鐘速度。
如前所述,整體變化很小,無論是在效能還是卡片構造方面。除了換成 18Gbps GDDR6 記憶體外,這些更新的規格都可以通過當前的卡設計來實現,並且沒有其他硬體變化。與此同時,AMD對新卡效能提升的估計約為 5% 到 6%——記憶體頻寬的增加受到 GPU 時鐘速度的小幅提升的影響。
儘管如此,對於 AMD 來說,這是一個進一步提高他們在一些最重要的視訊卡上的競爭定位的機會。在當前這一代顯示卡的最後六個月左右,領先於 NVIDIA。NVIDIA 早就展示了中代產品,如 3080Ti/3070TI 和 3080 12GB,因此 AMD 獲得了可能成為最後一步的優勢(至少在效能上層) 。

  • 更新的 Radeon RX 6000 產品堆疊:擴充套件和退役
    這一切發生的時機確實讓 AMD 無意中抓住了一把落下的刀,然而,在經歷了 18 個月的挫折之後,顯示卡市場終於迴歸常態。由於加密貨幣挖礦盈利能力大幅下降且供應情況有所改善,零售視訊卡價格正在接近其最初的建議零售價。這對於遊戲玩家、電腦科學家和其他任何想要以(更)合理的價格購買顯示卡的人來說都是個好訊息,但對於 AMD 在嘗試定價和定位新部件時會遇到更多問題。AMD 甚至在推出新卡之前就已經需要重新定價一次,而現在這些被設計為優質、高價產品的卡將面臨更大的市場壓力。
    除了將 RX 6950 XT、RX 6750 XT 和 RX 6650 XT 新增到 AMD 龐大的 Radeon RX 6000 系列產品堆疊之外,AMD 還利用這個機會淘汰了顯示卡Radeon RX 6600 XT——原本最快的 Navi 23 卡,以及 AMD 中端顯示卡努力的基石,最終將不復存在。該卡在市場上的地位正在被最快的 RX 6650 XT 所取代。

 除此之外,RX 6900 XT 和 RX 6700 XT 將繼續生產。儘管最便宜的 6900XT 已經達到 950 美元,但 AMD 及其合作伙伴可能很快就會發現自己不得不讓他們的新卡與其他產品堆疊一起降價。

順便說一句,AMD 對這些新部件使用了合理的命名系統。將所有新卡指定為 xx50 可以很容易地判斷它們與現有卡有明顯的不同,並且可以很容易地判斷在更大的產品堆疊中的位置。AMD 有 4 位數字,很高興看到 AMD 至少使用了 3 個數字,而不是新增更多的字尾或完全用多種變體過載產品名稱。

  • Radeon RX 6950 XT、RX 9750 XT 和 RX 6650 XT
    深入瞭解規格,讓開始研究新卡。

 從頂部開始,擁有 AMD 的新旗艦 Radeon RX 6950 XT。這是原始 RX 6900 XT 的增強版,現在是 AMD 產品堆疊中功能最強大的顯示卡,也是最昂貴的顯示卡。

 鑑於最初的 RX 6900 XT 已經基於具有 40 個 CU 和 128MB 無限快取的完全啟用的 Navi 21 GPU,AMD 除了提高 GPU 和記憶體時鐘速度之外,幾乎沒有其他途徑來提高效能,所以這正是他們的目標,且已經完成了。

除了將顯示卡與 16GB 最新的 18Gbps GDDR6 記憶體配對外,顯示卡的 GPU 時鐘速度也得到了提升;官方遊戲時鐘現在是 2100MHz (+10%),最大加速時鐘是 2310MHz (+3%)。這使 RX 6950 XT 的記憶體頻寬增加了 12.5%,並且整個 GPU 本身的吞吐量平均提高了幾個百分點。
為了為這種改進的效能買單,AMD 還提高了 TBP。最初的 RX 6900 XT 是 300W 卡,而 RX 6950 XT 在參考規格下是 335W 卡,董事會合作夥伴可以隨時進一步提高。AMD 在這一點上處於電壓/頻率曲線的遠端,雖然提高 TBP 確實可以通過讓卡更頻繁地接近其最大 GPU 時鐘速度來提高效能,但正在逐漸減少此時返回。所有這些都進一步反映在 AMD 的官方效能資料中,RX 6950 XT 的著陸速度比原始的 RX 6900 快了約 4%。
關於這一點,值得指出的是,新的 18Gbps GDDR6 也可能是這些新卡 TBP 增加的一個因素。雖然最新 GDDR6 的電壓保持在 1.35v,但由於支援如此高的訊號速率的電力成本,總體功耗仍會上升。AMD 沒有正式公佈其顯示卡的 GPU 和 DRAM 功耗,但如果在所有其他條件相同的情況下,RX 6950 XT 的 DRAM 功耗比 RX 更高,一點也不感到驚訝6900 XT。在這一點上,如果 AMD 無論如何都需要增加 TBP(以保持時鐘速度恆定),為什麼不增加一點以從 GPU 本身中擠出一些額外的空間。

同時,在 AMD Radeon 產品堆疊的中間位置,有 RX 6750 XT 和 RX 6650 XT。與 RX 6950 XT 一樣,這些卡的前身已經基於完全啟用的 Navi GPU——分別為 Navi 22 和 Navi 23——因此 AMD 正在轉向提高時鐘速度以提高效能。

 對於 RX 6750 XT,與最初的 RX 6700 XT 相比,其最大時鐘速度已提升至 2600MHz (+ <!%),而遊戲時鐘現在為 2495MHz (+3%)。因此,來自最高 GPU 時鐘速度的預期效能提升是最小的,大部分提升將需要來自 18Gbps GDDR6。但儘管如此,AMD 自己的效能資料顯示,RX 6750 XT 比 RX 6950 XT 從這些升級中受益更多;AMD 的二線顯示卡的資料速度略高於 7%。

同時,RX 6650 XT 完全取代了原始的 RX 6600 XT,最大時鐘速度為 2635MHz,遊戲時鐘為 2410MHz,兩者都比原始卡快 2% 左右。而且,儘管 TBP 增加了,記憶體頻寬增加了 12.5%,但在 AMD 的官方資料中顯示出最小的增益,只有 2% 的效能提升。在這種情況下,AMD 不保留原始的 RX 6600 XT 是可以理解的,因為 RX 6650 XT 的速度不夠快,無法與舊卡有意義地分開。
一旦這些卡開始出貨,將看到第三方基準測試如何發揮作用,但假設 AMD 的資料在這裡是準確的,這證明了他們的片上 Infinity Cache 的價值。雖然記憶體頻寬幾乎不會隨著 1 對 1 效能的提高而增加,但值得注意的是,額外頻寬所增加的效能是多麼少 - 或者相反,Navi 23 GPU 已經被 16Gbps GDDR6 在 128位記憶體匯流排。即使只有 32MB 的快取也在做大量工作來限制 1080p 的 DRAM 頻寬需求。
最後,與 RX 6950 XT 一樣,這兩張卡的 TBP 也在增加。RX 6750 XT 將搭載 250W 參考 TBP,比原始 RX 6700 XT 高 20W。同時,RX 6650 XT 將調整為 180W,這也比其前身 RX 6600 XT 高 20W。

  • 驅動程式新聞:隱私檢視和 AMD 超級解析度 1.1

在今天的產品公告中,還有一個關於 AMD 產品生態系統驅動程式方面的簡短更新。

 AMD 的 GPU 加速隱私檢視功能,原定於第一季度推出,終於接近釋出,應該在本月的驅動程式下降中。同時,根據 AMD 的說法,基於驅動程式的 AMD 超解析度技術的更新版本正在開發中。儘管此時沒有透露將針對 Super Resolution 1.1 調整或新增哪些功能。

  • 合作伙伴卡和產品定位
    鑑於今天的釋出是對一些 AMD 現有卡的相對較小的更新,AMD 及其董事會合作夥伴正在開始使用新卡。除了合作伙伴工作外,AMD 還發布了 RX 6950 XT 和 RX 6750 XT 參考卡的更新版本。因此,喜歡 AMD 參考設計的遊戲玩家——甚至只是直接從 AMD 購買——將能夠這樣做。
    與此同時,董事會合夥人將一如既往地做自己的事情。期望看到庫存時鐘和工廠超頻卡的通常組合,董事會合作夥伴希望從 AMD 的最新硬體中榨取更多。
    除了今天釋出的資訊之外,AMD 並沒有向提供太多關於可用性的資訊。但考慮到底層 GPU 的生產時間——以及最近幾周 6900XT/6700XT/6600XT 的可用性——這不應該是一個特別瘋狂或供應受限的釋出。在過去的 18 個月之後,所有這些都是一個不錯的變化。
    儘管當原始顯示卡最終降到更合理的價格時,整個顯示卡市場對新的高價 Radeon 顯示卡有多大的胃口還有待觀察。由於 RX 6800 或 RX 6600 以外的任何產品的供應在這一點上基本上不受限制,因此新卡的大部分價值來自其略高的效能,這意味著生態系統沒有太多回旋餘地來提供更高的效能和價格。或許 AMD 已經在採取進一步措施來支撐視訊卡價格也就不足為奇了,包括即將推出的遊戲捆綁優惠,儘管它實際上還沒有上線,但它今天就開始了。
    值得慶幸的是 ,AMD的競爭對手是市場領導者 NVIDIA。儘管 GeForce 卡的價格也有所下降,但對挖礦更友好的卡的降價速度較慢,因此其中許多卡的售價仍然比原來的建議零售價高出不少。因此,AMD 擁有龐大且現在甚至更大的產品堆疊,可以與 NVIDIA 堆疊中的所有產品相媲美——而且就目前而言,通常具有顯著的價格優勢。
    AMD 認為具有效能優勢,雖然非常懷疑 RX 6950 XT 是否會始終勝過 RTX 3090(AMD 選擇的競爭對手),但 RX 6750 XT 和 RX 6650 XT 相對於 NVIDIA 的基線表現更好分別是 RTX 3070 和 3060 卡。這次釋出的重點之一是讓事情更上一層樓:讓 AMD 全力以赴,提供新的硬體素材來展示與 NVIDIA 的對比。

     總結一下,期待在零售貨架上看到新的 Radeon 卡——如果不是更早的話。

RISC-V UPSTART的目標是效能、電源效率

 

 越來越多的大大小小的供應商都在努力為人工智慧工作負載製造處理器。人工智慧和機器學習是自動化和分析的關鍵促成因素,在高度分散式的IT環境中發揮著越來越重要的作用,該環境跨越了內部資料中心、公共和私有云以及不斷增長的邊緣空間。

人工智慧晶片市場仍由大型成熟廠商主導。在上個月的一份報告中,市場研究公司Omdia表示,幾年前將機器學習作為其增長計劃的核心的英偉達在2020年繼續是最大的供應商,在全球40億美元的收入中佔有80.6%的份額,為32億美元。Omdia預計,2026年,資料中心和雲端計算的人工智慧晶片全球收入將達到376億美元。

 

 這樣的市場增長肯定會吸引晶片製造商。2019年,英特爾以20億美元收購了人工智慧晶片製造商哈瓦那實驗室(Habana Labs),儘管三年前收購了Nervana Systems,但仍希望加快努力。4月,聖地亞哥超級計算機中心表示,它計劃在其資料中心安裝近10個哈瓦那系統機架。

其他公司也在繼續製造人工智慧處理器或為其晶片注入人工智慧功能,包括谷歌(Google)及其Tensor處理器單元(TPU)、AMD、IBM、Xilinx及其Edge人工智慧平臺,以及亞馬遜(Amazon)及其AWS推理機學習人工智慧推理晶片。

越來越多的小型和初創晶片製造商正在尋求在市場上為自己開拓空間,專注於從效能到成本效率再到靈活性的各個領域。其中一些名字比其他名字更熟悉,包括Graphcore、Ampere、Blaize、Cebralas、Groq和SambaNova。

把世界語技術算在這張名單上。該公司成立於2014年,從那時起,通過三輪融資籌集了1.24億美元,最後一輪融資是在4月份籌集的6100萬美元。2020年12月,世界語宣佈推出ET-SoC-1,一款基於開放式RISC-V架構的七奈米機器學習處理器。該晶片製造商表示,該晶片將在一個小封裝中容納近1100個定製核心,重點是通過利用能源效率提高效能。

在最近的Hot Chips 33虛擬活動上,世界語創始人兼執行主席戴夫·迪澤爾(Dave Ditzel)公佈了他所說的超級計算機晶片上的細節,該晶片既可以用作主處理器,也可以用作加速器,旨在適應現有的資料中心,這些資料中心要求在風冷環境中實現能效。

該晶片擁有240億個電晶體,由臺灣半導體制造公司(Taiwan Semiconductor Manufacturing Corp.)製造,主要用於機器學習推理工作負載。

“超大規模資料中心中的機器學習推薦工作負載有一些最苛刻的效能和記憶體要求,”迪澤爾在演講中說。“它們基本上是在x86伺服器上執行的。對額外效能的需求正在快速增長,客戶希望找到一種方法來提高他們已經安裝的伺服器的效能,而不是簡單地建立更多的資料中心和購買更多的伺服器。”

這些系統通常為功率預算在75到120瓦之間的PCIe卡提供插槽。迪澤爾說,這項要求基本上為世界語的機器學習晶片設定了引數。該公司需要製造一個基於PCI3的加速器卡,該卡最多使用供應商的六塊晶片,功率不超過120瓦。

 

 在那之後,該卡的效能需要“大大高於x86主機CPU的效能”,計算速度最高可達100到1000次。此外,雖然8位整數可以進行大量推斷,但該卡還必須能夠支援16位和32位浮點資料型別。還應該有至少100GB的儲存空間和100MB的片上記憶體。

Ditzel說:“與非常大、訪問量很少的資料混合在一起的計算具有挑戰性,因為片外儲存器的延遲非常大,這可能會導致處理暫停。”。“最後,由於機器學習工作量的快速發展,固定功能硬體可能很快就會過時,因此強烈建議使用更通用、可程式設計的解決方案。”

世界語開發的晶片包括1088個高效的ET Minion有序核心,每個核心都有一個向量張量單元,以及四個ET Maxion無序核心。ET-SoC-1提供了超過1.6億位元組的片上SRAM、帶有低功耗LPDDR4x DRAM和eMMC快閃記憶體的大型外部儲存器介面,以及與PCIe x8 Gen4和其他I/O介面的相容性。

最重要的是,該晶片可以驅動100到200個峰值速率,並且在不到20瓦的功率下工作,這意味著其中6個晶片將在120瓦的功率預算下。迪澤爾說,這來自世界語在晶片設計中採用的路線。

“其他一些解決方案使用了一個巨大的熱晶片,耗盡了加速器卡的全部功率預算,” 迪澤爾說。“Espernato的方法是使用多個低功耗晶片,這些晶片仍然符合功耗預算。實際上,一個晶片封裝上可以安裝的管腳數量有限,因此單晶片解決方案無法獲得更大的記憶體頻寬,往往會以昂貴的記憶體解決方案告終。Espernato的方法分佈在多個晶片上進行處理和I/O。隨著越來越多的晶片越來越多此外,效能提高、記憶體容量增加、記憶體頻寬增加,低功耗、低成本的DRAM解決方案成為一種實用的解決方案。”

 

 單晶片解決方案也傾向於追求最高的工作頻率,從而導致高功率和低效率。Esperanto認為電晶體——尤其是7nm FinFET——在低電壓下工作時更節能,這會降低工作功率。迪澤爾說,世界語的工程師們必須圍繞電路進行創新,並對RISC-V核心進行修改,以製造出一款高效能加速器,其晶片不超過6塊,功耗不超過120瓦。

調低了關閉頻率,將工作頻率降低到1GHz。它們還可以將工作電壓至少降低兩倍,但在低電壓下穩定執行是困難的。

“不得不對電路和架構進行一些改變,” 迪澤爾說。“在千兆赫茲水平和低電壓下執行,需要在每個流水線級設計極少量的門……世界語必須對L1快取和暫存器檔案進行電路和架構更改。即使進行了這些更改,仍有超過50倍的差距,彌補這一差距的唯一方法是減少動態開關電容,即動態開關電容s、 每個電晶體和導線的容量以及開關頻率。為了減少這些問題,你必須有一個非常簡單的架構,只有很少的邏輯閘。這就是RISC-V是基本指令集的一個偉大解決方案的地方,因為它可以用任何商業上可行的指令集中最少的邏輯閘來實現。還必須非常仔細地設計向量張量單元。”

迪澤爾展示了世界語晶片的功率效率圖,測量了不同工作電壓下每秒每瓦特的推斷。

 

 由於ET Minion Tensor核心以最低電壓和8.5瓦的功率執行,世界語能夠在遠低於120瓦極限的情況下將六個晶片裝入加速卡,其效能是單個118瓦晶片解決方案的2.5倍,能效是275瓦點的20倍。

迪澤爾還進行了效能比較。在基準測試方面,Espernato使用了MLPerf深度學習推薦模型,將晶片與英特爾的八插槽至強鉑金8380H伺服器處理器以及英偉達的A10和T4 GPU進行了對比。如下圖所示,Esperanto晶片的效能是英特爾處理器的59倍,每瓦效能是英特爾處理器的123倍,超過了兩個Nvidia GPU。Ditzel表示,使用ResNet-50推理基準測試也得出了類似的結果。

 

 在物理設計方面,世界語組織了八個名為“鄰居”的ET Minion核心,這使得該公司能夠通過架構改進來節約能源,比如讓八個核心共享一個大型指令快取,而不是每個都有自己的指令快取。每個八核社群形成一個32核的僕從郡,通過每個郡上的片上網狀互連連線。

Ditzel談到了ET-SoC-1如何在系統中使用,包括那些支援開放計算專案(OCP)Glacier Point V2設計的系統,該卡提供6558個RISC-V核心、高達192GB的RAM和高達822GB/s的DRAM頻寬。Ditzel通過雪橇和機架推斷出這一點,他說OCP資料中心可以容納數百萬個世界語核心。

 

 該公司支援C++和PyTorch以及Caffe2和MXNet等機器學習框架。迪澤爾說,世界語最近在其實驗室和準備測試中獲得了矽。計劃在今年晚些時候實施早期訪問計劃。

 

參考連結

https://www.nextplatform.com/2021/09/20/esperanto-chip-drives-ml-inference-performance-and-power-efficiency/

https://mp.weixin.qq.com/s/LrbxIQ2hmNW3RPUqs1glFQ

https://baijiahao.baidu.com/s?id=1708422385375788751&wfr=spider&for=pc