蟄伏二十餘載,PC 獨顯進入“三國時代”:英特爾銳炫 ARC 新品詳解
3 月 30 日,英特爾正式釋出英特爾銳炫 ARC 移動端獨立顯示卡,代號 Alchemist(煉金術士),英特爾首次面向消費端獨顯產品推出已經過了 24 年,在那之後英特爾獨顯產品開發就陷入了停滯轉而專注核顯開發。
在經過多年的技術積累,英特爾此前面向伺服器市場推出了 DG1 顯示卡,今年正式面向消費端推出英特爾銳炫 ARC 獨顯產品,首批針對移動端推出的 A 系列產品包含銳炫 3/5/7 三個型號。
其中英特爾銳炫 3 主要面向主流遊戲市場,銳炫 5 主要面向效能遊戲市場,銳炫 7 主要面向發燒級硬核遊戲。此次英特爾推出了移動端 A 系列的 A350M 和 A370 M 產品。全新英特爾銳炫顯示卡支援 XeSS 超取樣、完整的 AV1 硬體加速、Smooth Sync 抖動過濾、Deep Link 技術,全方位覆蓋遊戲、創意設計、功耗控制等場景。
首款搭載英特爾銳炫 ARC 獨顯的是三星 Galaxy Book2 Pro 輕薄本產品,這款產品獲得英特爾 Evo 嚴苛認證,目前已經在海外市場正式上市。
未來藉助英特爾在處理器市場上的份額優勢,將會有大量搭載英特爾銳炫 ARC 獨顯筆記本產品上市。通過英特爾 Evo 認證的產品在續航和顯示能力上也將得到進一步提升。
目前巨集碁、華碩、戴爾、海爾、惠普、聯想、微星、三星、英特爾 NUC 等品牌或者產品已經有推出銳炫獨顯筆記本的打算,通過銳炫獨顯,英特爾未來也可以整合自家產品,推出第一方英特爾筆記本。
配套的英特爾銳炫控制面板也隨著英特爾銳炫獨顯產品的上市同步推出,這一控制面板集合了驅動自動更新、效能監控、效能調優、直播管理、遊戲高光時刻生成、活動推廣等功能,並且無需強制登入就可使用。
接下來了,我們通過詳細的解析瞭解一下全新的英特爾銳炫 ARC 獨立顯示卡的底層架構和技術亮點。
底層架構
英特爾銳炫 ARC 獨顯產品基於英特爾 Xe HPG 架構開發,核心採用內建 XMX 的 Xe 核心,包含 Xe 媒體引擎、Xe 顯示引擎以及 Xe 圖形管線三大核心功能。
通過 Xe HPG 微架構,英特爾銳炫顯示卡在開發過程中有很大的靈活性,渲染切片是 Xe HPG 微架構的基本模組,每個 Xe HPG 渲染切片包含 4 個 Xe 核心、4 個光追單元、4 個取樣器、幾何引擎、光柵引擎、HiZ 引擎以及 2 個畫素後端構成。
每個 Xe 核心中包含 XMX 矩陣引擎、XVE 適量引擎、光追單元、取樣器等,這些構成了一個完整的 Xe 核心,也是 Xe HPG 微架構的基本運算單元,這與以往的執行單元 EU 概念有所不同,通過 4 個 Xe 核心構成的渲染切片,以不同組合方式就構成不同的 SoC 以此形成不同的產品形態。
英特爾銳炫顯示卡通過疊加渲染切片方式構成不同的產品線,最小為 2 個,最大為 8 個,通過不同形式的組合構成了各種各樣的產品。針對光追和 DX12 Ultimate,Xe HPG 微架構也有很好的支援。
回到 Xe 核心上,每個 Xe 核心提供 16 個 256 位的 XVE 向量引擎、16 個 1024 位的 XMX 矩陣引擎,並配備 192KB 的共享一級快取。XVE 適量引擎用於執行傳統的影象處理計算,XMX 矩陣引擎則主要用於 AI 加速。
其中 XVE 向量引擎每個時鐘週期可以執行 16 個 FP32 操作、32 個 FP16 操作以及 64 個 INT8 操作,專用的 FP 浮點執行介面和共享 INT / EM 執行介面。XMX 矩陣引擎每個時鐘週期可以執行 128 個 FP16 / BF16 操作、256 個 INT8 操作、512 個 INT4 / INT2 操作。
XMX 算力提升相比於傳統的 MAC 或者進階的 DP4a 是非常巨大的,我們知道 MAC 是圖形中使用的基本 SIMD 向量指令,每個時鐘週期共執行 8 次並行運算乘法和 8 次並行加法。而 DP4a 則針對不需要 32 位精度的 AI 計算所做的優化,每個時鐘週期共執行 32 次並行乘法、32 次累加或每個週期總共 64 次 操作,這比標準 SIMD MAC 提高了 4 倍的效能。
而 XMX 矩陣引擎通過將乘法累加 4 深度流水線化,將其提升到一個新的水平。與 DP4a 一樣,每個運算元都被分成 4 個塊,這些塊被獨立的相乘和累加 —— 每個階段 64 個操作(由紫色圖塊顯示)。通過 4 個階段,每個時鐘產生 256 次操作,這就比傳統的 32 位 SIMD MAC 增加了 16 倍的效能。
XMX 的提升最好的應用就是 XeSS 超取樣抗鋸齒技術,與傳統高解析度渲染相比可以在遊戲中提供更高的效能,通過神經網路輔助運動向量,從低解析度渲染中生成精美的高解析度影象,這有些類似英偉達 DLSS。
目前 XeSS 超取樣抗鋸齒技術將在今年夏天正式到來,首批支援 XeSS 的遊戲包括《古墓麗影:暗影》、《超級房車賽:傳奇》、《幽靈線:東京》、《死亡擱淺》、《血獵》、《CHORVS》、《Arcadegeddon》、《殺手 3》等 14 款遊戲。
通過 Xe 媒體引擎,銳炫顯示卡支援多種主流格式的編解碼器,包括 H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及 AV1。
其中針對 AV1 的硬體編解碼加速支援英特爾銳炫顯示卡是第一家提供的 GPU 提供商,這些格式的編解碼可以以極低的處理器利用率完成。由於 AV1 出色的效率,未來 AV1 也將成為主流的視訊格式,它相比於 H.264 和 HEVC 效率更高,可以以更低的頻寬和更小的檔案大小實現更好的畫面質量,且 AV1 沒有授權使用費。
英特爾銳炫顯示卡對 AV1 的硬解碼能力相比於傳統軟解碼在編碼速度上提高了 50 倍,目前 FFMPEG、Handbrake、Adobe Premiere Pro、 Davinci Resolve、XSplit 都已經集成了銳炫 AV1 硬解碼的支援。
Xe 顯示引擎主要為當前階段以及未來的顯示技術打造,現階段英特爾銳炫顯示卡支援 HDMI 2.0b、DP 1.4a,DP 2.0 10G 也將支援。通過英特爾銳炫顯示卡,玩家可以享受 2 臺 [email protected] HDR 或者 4 臺 [email protected] HDR 的最高畫面輸出。
在遊戲場景中,英特爾提供多項同步技術幫助玩家有著更好的體驗,其中 VESA 標準 Adaptive Sync 防撕裂技術英特爾銳炫顯示卡提供支援。而 Speed Sync 這項新的技術,可以為遊戲當前幀提供加速,Speed Sync 通過關閉 V-Sync 並渲染幀的整體來達到低延時無撕裂的效果。
Smooth Sync 是英特爾推出的另一項畫面優化技術,這項技術通過模糊兩個撕裂幀的邊界,來減少視覺失真以此讓畫面看起來更加連貫流暢。
效能表現
此次全新推出的英特爾銳炫獨顯產品共包含 2 種不同的 SoC 設計,代號分別為 ACM-G10 和 ACM-G11,其中 ACM-G10 共包含 32 個 Xe 核心和光追單元,16MB 的 L2 快取以及 256 位的 GDDR6 介面、16 路 PCIe 4.0 介面;ACM-G11 則包含 8 個 Xe 核心和光追單元,4MB 的 L2 快取、96 位的 DDR6 介面、8 路 PCIe 介面。兩種晶片均包含 2 個 Xe 多功能編解碼引擎和 4 個影象輸出引擎。
有關頻率問題,我們知道不同的頻率要求電壓和功耗也不一樣,其實根據日常使用的場景,筆記本往往在不同負載場景下的頻率功耗呈現一個動態分佈狀態。基於這種分佈,英特爾銳炫顯示卡在分配引數是,往往設定一個有代表性的負載,再根據這個負載的頻率、引數情況對顯示卡的頻率進行定義。不同的平臺有著不同的 TDP,在更寬鬆的 TDP 限制下,時鐘頻率的分佈範圍也會整體提升。
因此,英特爾根據此劃分出首批 A 系列的 5 款顯示卡產品,其中首發的銳炫 3 A370M 包含 8 個 Xe 核心和光追單元、主頻 1550MHz、8GB GDDR6 64 bit 視訊記憶體、TGP 在 35-50W 之間;銳炫 5 A550M 則包含 16 個 Xe 核心和光追單元、主頻 900MHz、8GB GDDR6 128 bit 視訊記憶體、TGP 在 60-80W 之間;銳炫 7 A770M 則包含 32 個 Xe 核心和光追單元、主頻 1650MHz、16GB GDDR6 256 bit 視訊記憶體、TGP 在 120-150W 之間。銳炫 3 產品已經正式上市,銳炫 5/7 則將在今年夏天正式上市。
在遊戲表現上,首批上市的銳炫 A370M 顯示卡主要面向中高畫質遊戲,主打場景在 1080P 幀下的大型遊戲。相比於 96EU 的 Xe 核顯在幀率上有著 60 幀以上的表現。
而在《堡壘之夜》、《GTA V》等需要高幀率的遊戲場景下,銳炫 A370M 中高畫質下幀率超過 90 幀,已經達到一個流暢的水平。
創意生產場景下,和 12 代酷睿的整合顯示卡相比,在搭載 A370M 獨立顯示卡的平臺上,效能也有了顯著提升。在視訊編解碼方面,以 Davinci Resolve 為例,4K H.264 轉 H.265 的效能可提升多達 60%。而在 AI 相關功能上,例如 Adobe Promiere Pro 裡的兩個應用場景,更是有翻倍的效能提升。
在創作場景下的提升,不光取決於顯示卡本身,同時還得益於英特爾全新的 Deep Link 技術帶來的巨大提升。下面我們來看看 Deep Link 的工作原理。
英特爾 Deep Link 技術
英特爾 Deep Link 技術區別於以往單純動態功率共享,英特爾銳炫顯示卡在與英特爾 12 代酷睿處理器之間除了功耗的動態共享,還引入了超級編碼和超級算力能力。
動態功率共享技術能在系統功耗的限制範圍內,儘可能最大化釋放 CPU 或 GPU 的效能。英特爾已經在這項技術上探索了很長時間。早在 2016 年,Kobe-Lake G 時代,英特爾就推出了第一版動態功率共享,即在 CPU 裸片和 GPU 裸片之間動態分配功率。
現在 12 代酷睿和銳炫 A 系列獨立顯示卡之間這項功能也得到進一步應用,在執行負載時,如果 CPU 更需要功率,功率會更多的分配給 CPU,反之對 GPU 也是一樣,最終目的是讓這個負載有更好的效能。
第二項技術則超級編碼技術,這項技術的初衷是為終端使用者提升編解碼效率。以前的編解碼流程裡,通常把編碼工作放在一個顯示卡的編解碼器上,編碼效率成為了整個流程的效能瓶頸;而實際上現在的英特爾筆記本系統,例如搭載了 12 代酷睿處理器和銳炫 A 系列獨立顯示卡的系統,整合顯示卡和獨立顯示卡都有硬體編碼能力。所以超級編碼技術,就是同時運用兩個顯示卡的編解碼引擎,來大大提升編解碼效率。
這種協作是通過 OneVPL 的 API 介面來實現的。OneVPL 是一個跨平臺的開放性框架,應用程式通過介面可以識別並呼叫平臺上多個多媒體引擎,充分利用視訊處理能力。當超級編碼開始工作時,一組組解碼後的原始幀通過特定的 API 函式被交給 oneVPL,進而按組被分配到不同的多媒體引擎上,拷貝到相應的記憶體中快取起來。不論每一組有多少幀,相應的集顯或者獨顯的多媒體引擎會開始按照設定的格式編碼。而 OneVPL 會完成後續的打包工作,把編碼後的幀一組組拼接成最終視訊來輸出。這種並行處理,編碼效率比單一顯示卡提升非常顯著。
在算力提升上也有著與超級編碼類似的邏輯,即儘可能地讓整個系統都參與進來,並且合適的模組做合適的事,超級算力這項技術也是這樣的邏輯。
搭載英特爾銳炫獨立顯示卡的筆記本可以從獨立顯示卡的算力中獲益,但英特爾 CPU 的整合顯示卡中同樣也提供了計算引擎。通過把負載合理的分配給不同的計算引擎,以此實現算力最大化。這其中就使用了 OpenVino 中的 MLS 框架來將算力進行最大化的實現。
MLS 能智慧的把負載分配給不同的算力模組,通過延遲敏感度、吞吐量、效能要求、功率消耗等應用或負載的特徵幫助 MLS 做出決策,把負載分配給獨立顯示卡、整合顯示卡或者 CPU。
通過 Deep Link 幾項關鍵的技術,在創作場景下,英特爾酷睿筆記本 + 英特爾銳炫顯示卡的組合帶來了效能的大幅提升。系統各個模組更加緊密的協作,讓每一個模組的效能得到充分釋放。基於這一理念,Deep Link 將英特爾平臺上各個模組有機結合,讓整體效率更進一步。
總結
英特爾在蟄伏多年,終於開啟了獨顯之路,首批上市的獨顯產品主要針對移動端,憑藉英特爾在處理器領域的強大佔有率,未來英特爾銳炫獨顯產品也將成為繼 N 卡、A 卡後一支強大的力量,顯示卡市場將進入“三國時代”。在顯示卡市場價格高企的當下,英特爾的入局對於消費者來講是件好事情,更多的選擇也就意味著產品之間價格戰將會打響。
對於行業而言,英特爾的 i+i 方案既有利於英特爾對產品的整體把控,也讓英特爾在開發者與合作伙伴之間提供了更進一步的一致性產品。
英特爾的下海,無疑會攪動獨立顯示卡這個龐大的市場,未來這樣的“三國”局面將如何發展,我們拭目以待。