1. 程式人生 > 資訊 >黃仁勳數字人亮相 GTC,英偉達秀“元宇宙”肌肉:看這巴掌大 AI 超算和虛擬化身平臺

黃仁勳數字人亮相 GTC,英偉達秀“元宇宙”肌肉:看這巴掌大 AI 超算和虛擬化身平臺

黃仁勳“手辦”對答如流,英偉達強勢拉開元宇宙序幕,幫企業開發大模型。

11 月 9 日報道,今日,人工智慧及高效能運算頂級技術盛會 NVIDIA GTC 大會如約而至。

這個市值已高達 7700 億美元的 AI 頂級玩家,剛剛推出全球最小、功能最強大、能效最高的下一代 AI 超級計算機 NVIDIA Jetson AGX Orin,其算力達到 200TOPS,可與內建 GPU 的伺服器媲美。

在下午的虛擬主題演講中,NVIDIA 創始人兼 CEO 黃仁勳穿著熟悉的皮衣,公佈了一系列最新 AI 技術和產品,並推出承載著其“元宇宙”願景的全新虛擬化身平臺。

由這個平臺生成的“迷你玩具版黃仁勳”Toy-Me,能與人自然地問答交流。

在幫助企業降低 AI 開發部署門檻方面,NVIDIA 可以說是做到了極致,比如提供方便企業構建 AI 大模型的框架,以及定製專屬聲音的虛擬助手。

黃仁勳說,NVIDIA 開發者數量已接近 300 萬,CUDA 過去 15 年下載量達 3000 萬次,一年下載量達到 700 萬。

此外,NVIDIA 繼續表露對醫療健康領域的熱情,推出搭載新一代 Orin 晶片、無縫連線醫療裝置和邊緣伺服器的 AI 計算平臺 Clara Holoscan。

黃仁勳還宣佈,NVIDIA 將構建一個數字孿生模型來模擬和預測氣候變化,新的超級計算機將名為 E-2,即 Earth Two,地球的數字孿生,能夠在虛擬世界模擬引擎 Omniverse 中以 Million-X 百萬倍的速度執行。

Jetson AGX Orin:手掌大小,算力堪比伺服器

自 2014 年推出 Jetson TK1 至今,NVIDIA Jetson 系列已經積累了 85 萬名開發者。

今日,NVIDIA 推出全球最小、功能強大、能效最高的新一代 AI 超級計算機 NVIDIA Jetson AGX Orin,用於機器人、自主機器、醫療器械和其他形式的邊緣嵌入式計算。

Jetson AGX Orin 保持了與前代機型 Jetson AGX Xavier 相同的外形尺寸和引腳相容性,處理能力提升 6 倍,每秒算力達 200TOPS,可與內建 GPU 的伺服器相媲美,而尺寸只有手掌那麼大。

它採用 NVIDIA Ampere 架構 GPU、Arm Cortex-A78AE CPU 以及新一代深度學習和視覺加速器。高速介面、更快的儲存頻寬和對多模態感測器的支援,為多個並行 AI 應用流水線輸送資料。

與歷代 Jetson 計算機一樣,使用 Jetson AGX Orin 的客戶可以運用 NVIDIA CUDA-X 加速計算棧、NVIDIA JetPack SDK 和最新 NVIDIA 工具進行應用開發和優化,包括雲原生開發工作流程。

來自 NVIDIA NGC 目錄的預訓練模型已經過優化,並可以使用 NVIDIA TAO 工具套件和客戶資料集進行微調。這減少了生產級 AI 的部署時間和成本,而云原生技術實現了產品整個生命週期內的無縫更新。

DRIVE AGX Orin 同樣由 Jetson AGX Orin 等 NVIDIA Ampere 架構提供支援,它是新發布的 NVIDIA DRIVE Concierge 和 DRIVE Chauffeur 背後的先進處理器,這兩個 AI 平臺分別為安全的自動駕駛提供動力。

針對特定用例的軟體框架包括用於機器人技術的 NVIDIA Isaac Sim,用於自動駕駛的 NVIDIA DRIVE,用於智慧城市的 NVIDIA Metropolis。最新的 Isaac 版本包括對機器人作業系統(ROS)開發人員社群的重要支援。

NVIDIA 還發布了用於 Isaac Sim 的全新 NVIDIA Omniverse Replicator,用於為機器人生成合成訓練資料。這些硬體加速軟體包使 ROS 開發者更容易在 Jetson 平臺上構建高效能 AI 機器人。

NVIDIA Jetson AGX Orin 模組和開發者工具包將於 2022 年第一季度上市。

黃仁勳還在演講中談道:“到 2024 年,絕大多數新款電動汽車將具備強大的自動駕駛能力。”

他展示了一個新自動駕駛平臺 DRIVE Hyperion 8 GA,這是 2024 年模型的架構。其感測器套件包含 12 個攝像頭、9 個毫米波雷達、12 個超聲波雷達和 1 個前向鐳射雷達,所有這些都由 2 顆 NVIDIA DRIVE Orin 晶片來進行處理。

據他透露,目前,英偉達已經在全球各地收集到了 PB 級的道路資料,並擁有大約 3000 名訓練有素的標記員,建立訓練資料。儘管如此,合成數據仍是 NVIDIA 資料策略的基石。

NeMo Megatron:讓企業開發自己的大模型

為了方便企業開發部署大型語言模型,NVIDIA 推出了為訓練具有數萬億引數的語言模型而優化的加速框架 NeMo Megatron。

NVIDIA NeMo Megatron 是 Megatron 的基礎上發展起來的。Megatron 是由 NVIDIA 研究人員主導的開源專案,研究大型 Transformer 語言模型的高效訓練。Megatron 530B 是全球最大的可定製語言模型。

利用先進的資料、張量和管道並行化技術,它能使大型語言模型的訓練有效地分佈在成千上萬的 GPU 上。

企業可以通過 NeMo Megatron 框架,進一步訓練它以服務新的領域和語言。經優化,該框架可以在 NVIDIA DGX SuperPOD 的大規模加速計算基礎設施上進行擴充套件。

除了 NeMo Megatron 外,NVIDIA 還推出了一個開發 Physics-ML 模型的框架 NVIDIA Modulus。

它使用物理原理及源自原理型物理和觀測結果的資料訓練 Physics-ML 模型,支援多 GPU 多節點訓練,由此生成的模型,其物理模擬速度比模擬快 1000-100,000 倍。

科學家可藉助 Modulus 建立數字孿生模型,來解決預測氣候變化等重要科學問題。

例如研究人員利用歐洲中期天氣預報中心的 ERA5 大氣資料訓練 Physics-ML 模型,該模型在 128 個 A100 GPU 上訓練需要 4 小時,訓練後的模型能以 30 公里的空間解析度預測颶風嚴重程度和路徑。

原本需要 7 天才能完成的預測,現在在一個 GPU 上只需 0.25 秒,比模擬快了 10 萬倍。

為了幫助企業加快 AI 之旅,NVIDIA 宣佈在全球範圍內擴充套件其 LaunchPad 計劃,它允許使用者即時訪問在加速基礎設施上執行的 NVIDIA AI 軟體。企業可使用 NVIDIA LaunchPad 免費體驗開發和部署大型語言模型。

LaunchPad 計劃由 Equinix 服務支援,包括資料中心、連線和裸金屬產品,獲得 LaunchPad 體驗後,企業可以在全球 Equinix 地點執行其 NVIDIA 加速的人工智慧工作負載。

Riva 定製語音:快速建立定製版品牌聲音

NVIDIA 的 Riva 語音 AI 軟體同樣有了新進展,黃仁勳宣佈了該軟體一個新功能 ——Riva 定製語音。

Riva 可識別英語、西班牙語、德語、法語、日語、普通話和俄語等 7 種語言,可以生成隱藏字幕、翻譯、摘要、回答問題並理解意圖。

只需訓練 30 分鐘的音訊資料,企業即可構建屬於自己品牌大使的聲音,獲得類似人類的表現力。

也就是說,使用者根據特定的領域或行業術語,可以量身定製擁有獨特聲音的虛擬助理。

不到三年間,NVIDIA 的對話 AI 軟體已被下載超過 25 萬次,並被廣泛採用到各個行業。

對於小規模研發,NVIDIA NGC 容器登錄檔免費提供 NVIDIA Riva,開發者可加入 Riva 開放測試版程式來試用該軟體。

對於擁有大規模部署並尋求 NVIDIA 專家技術支援的客戶,NVIDIA 宣佈了 NVIDIA Riva Enterprise 計劃,該計劃預計將於明年初推出。

Omniverse Avatar:構建生動的智慧虛擬化身

虛擬助手的下一步,是擁有常識、推理能力和生動的視覺形象。

在 GTC 大會上,黃仁勳宣佈推出一個全方位的虛擬化身平臺 ——Omniverse Avatar。

它是 NVIDIA 一系列先進 AI 技術的集大成者,將 Metropolis 的感知能力、Riva 的語音識別能力、Merlin 的推薦能力、Omniverse 的動畫渲染能力等交匯於一體。

這使得開發者能構建出一個完全互動式的虛擬化身,它足夠生動,能對語音和麵部提示做出反應,能理解多種語言,能給出智慧的建議。

黃仁勳展示了一些例子。

比如,其玩偶複製品可以跟人對答如流。

Metropolis 工程師用 Maxine 建立了 Tokkio 智慧操作檯應用程式,讓操作檯具有高度互動性,可快速做出對話響應。

在餐廳,兩名顧客點餐時,一個客戶服務虛擬化身可以跟他們交談和理解他們的需求。

這些演示由 NVIDIA AI 軟體和 Megatron 530B 提供支援,Megatron 530B 是目前世界上最大的可定製語言模型。

在 DRIVE Concierge AI 平臺的演示中,中央儀表板螢幕上的數字助理,可幫助司機選擇最佳駕駛模式,使其按時到達目的地,然後在汽車續航里程下降到 100 英里以下時,按他的請求設定提醒。

Maxine 專案更強調多種語言的實時翻譯和轉錄。

藉助 Maxine,這個人的話不僅被轉錄,還能以相同的聲音和語調被實時轉換成德語、法語等多種語言。

Maxine 使用計算機視覺來追蹤人的面部,並識別其表情,3D 動畫可為其製作虛擬而逼真的頭像。

可以想象,在企業和開發人員中,每個行業都需要某種形式的虛擬化身。

使用 Omniverse Avatar 平臺,你可以為視訊會議和協作平臺、客戶支援平臺、內容建立、應用收益和數字孿生、機器人應用等等構建定製的 AI 助理。

NVIDIA 的虛擬世界模擬 Omniverse 是打造虛擬世界的關鍵平臺。從機器人、自動駕駛車隊、倉庫、工業廠房到整個城市,都能在 Omniverse 數字孿生中完成建立、訓練和執行。

黃仁勳說,Omniverse 面向資料中心規模設計,有朝一日有望能達到全球資料規模。

愛立信正構建整個城市的數字孿生環境,幫助確定如何放置和配置每個站點以獲得最佳覆蓋範圍和網路效能,可對整個 5G 網路執行逼真遠端模擬。

AI 推理:Triton 推理,伺服器助力實時大模型推理

目前微軟、三星、Snap 等 25000 多家客戶都在使用 NVIDIA 的 AI 推理平臺。

今日,NVIDIA 推出多節點分散式推理功能的 NVIDIA Triton 推理伺服器,以及 NVIDIA A2 Tensor Core GPU 加速器。

NVIDIA A2 GPU 是一個入門級、低功耗的緊湊型加速器,適用於邊緣伺服器中的推理和邊緣 AI,推理效能比 CPU 高出 20 倍。

NVIDIA AI 推理平臺此次更新包括開源 NVIDIA Triton 推理伺服器軟體的新功能,和對 NVIDIA TensorRT 的更新。

最新 NVIDIA Triton 推理伺服器中的多 GPU、多節點特性,使大型語言模型推理工作負載能夠實時在多個 GPU 和節點上擴充套件。

藉助 Triton 推理伺服器,Megatron 530B 能在兩個 NVIDIA DGX 系統上執行,將處理時間從 CPU 伺服器上的 1 分鐘以上縮短到 0.5 秒,令實時部署部署大型語言模型成為可能。

在軟體優化上,Triton 推理伺服器的模型分析器,新工具可以自動化地從數百種組合中為 AI 模型選擇最佳配置,以實現最優效能,同時確保應用程式所需的服務質量。

RAPIDS FIL 是針對隨機森林和梯度提升決策樹模型 GPU 或 CPU 推理的新後端,為開發者使用 Triton 進行深度學習和傳統機器學習提供了一個統一的部署引擎。

Triton 與 AWS、阿里雲等平臺整合,並支援在各代 GPU、x86 CPU 和 Arm CPU 上優化 AI 推理工作負載。NVIDIA AI Enterprise 也集成了 Triton。

NVIDIA AI Enterprise 是一款經 NVIDIA 優化、認證和支援的用於開發和部署 AI 的端到端軟體套件,客戶可利用它在本地資料中心和私有云的主流伺服器上執行 AI 工作負載。

NVIDIA 旗艦 TensorRT 推理引擎亦進行了更新,已原生整合到 TensorFlow 和 PyTorch 中,只需 1 行程式碼,就能提供比框架內推理快 3 倍的效能。

NVIDIA TensorRT 8.2 是 SDK 的最新版本,可實時執行數十億個引數的語言模型。

NVIDIA 還宣佈微軟會議軟體 Teams 採用 NVIDIA AI 和 Azure 認知服務。

微軟 Azure 認知服務為高品質 AI 模型提供基於雲的 API,以建立智慧應用程式。他們在用 Triton 執行語音轉文字模型,為微軟 Teams 使用者提供準確的實時字幕和轉錄。

微軟 Teams 每月有近 2.5 億活躍使用者,微軟 Azure 認知服務上的 NVIDIA GPU 和 Triton 推理伺服器使用 28 種語言和方言,結合 AI 模型幫助提升實時字幕和轉錄功能的成本效益。

Mavenir 宣佈由 NVIDIA Metropolis AI-on-5G 平臺提供支援的 MAVedge-AI 智慧視訊分析,以加速企業人工智慧,該方案預計 2022 年初提供給客戶。

資料中心:全新網路安全功能

面向資料中心,黃仁勳宣佈推出 BlueField DOCA 1.2 來支援全新網路安全功能,希望使 BlueField 成為業界構建零信任安全平臺的理想之選。

目前有 1400 名開發者正在 BlueField 上進行開發,現在採用 BlueField 的網路安全公司已可提供零信任安全即服務。

NVIDIA 還發明瞭一個深度學習網路安全平臺 Morpheus 來監控分析網路行為。

它構建於 NVIDIA RAPIDS 和 NVIDIA AI 之上,其工作流會為每種應用和使用者的組合建立 AI 模型和數字指紋,並學習其日常的模式和尋找異常操作。這些異常操作將觸發安全警告,並提醒分析員作出響應。

Bluefield、DOCA 和 Morpheus 都是資料中心的全堆疊加速 AI 解決方案的一部分。NVIDIA 將為其網路安全合作伙伴提供一個零信任的安全平臺,從而提高安全性和應用程式效能。

Bluefield 坐在網路上,向 Morpheus AI 平臺提供資料中心發生的所有活動。Morpheus 是一個深度學習網路安全平臺,可以監控和分析來自每個使用者、機器和服務的所有資訊。

NVIDIA 今日也宣佈了 Morpheus 早期訪問 2 版本。

Morpheus 建立了預訓練的使用者活動指紋模型。當這些指紋發生變化時,它能夠實時識別出異常交易正在發生,建立一個可疑行為正在發生的安全警報,並隔離活動和加以提醒。

醫療健康:合作癌症中心,推新機器人平臺

在醫療健康領域,NVIDIA 宣佈與多家先進癌症中心合作,將 AI 的力量帶到癌症治療。這些癌症中心將採用 NVIDIA DGX 來加速開發 AI 模型。

許多醫療裝置公司正在將 AI 和機器人技術融入其中,在機器人手術、移動 CT 掃描、支氣管鏡檢中使用 NVIDIA 加速計算平臺。

為加速 AI 醫療裝置的應用,NVIDIA 推出一個面向醫療健康行業的新計算平臺 NVIDIA Clara Holoscan。

Holoscan 是繼 Isaac 和 Drive 後,NVIDIA 的第三個機器人平臺,能為可擴充套件、軟體定義、端到端流媒體資料處理的醫療裝置提供所需的計算基礎設施。

該平臺集成了 NVIDIA AGX Orin 和 ConnectX-7,FP32 算力達 5.2TFLOPS,AI 算力達 250TOPS,740Gbps 高速 IO 用於連線感測器。

新增 RTX A6000 Ampere GPU 後,可獲得另外 39TFLOPS(FP32)和超過 600TOPS 的 AI 推理效能。

Clara Holoscan 是一個醫療裝置與邊緣伺服器無縫連線的端到端平臺,能助力開發者建立 AI 微服務,用以在裝置上執行低延遲串流應用,同時將更復雜的任務傳至資料中心資源。

藉助 Clara Holoscan,開發者可以自定義應用,按需在其醫療裝置中充分新增或減少計算和輸入/輸出功能,從而平衡延遲、成本、空間、效能和頻寬的需求。

Clara Holoscan SDK 通過加速庫、AI 模型和超聲波、數字病理學、內窺鏡檢查等參考應用支援此項工作,以幫助開發者利用嵌入式和可擴充套件的混合雲端計算。

在藥物發現方面,加拿大 AI 製藥創企 Entos 發明了一種深度學習架構 OrbNet,用物理機器學習方法訓練圖神經網路,取代分子模擬中昂貴的原子間作用力,將分子模擬速度提高 1000 倍。

Quantum-2:史上最先進端到端網路平臺

此次 GTC 期間,NVIDIA 還宣佈了下一代 NVIDIA Quantum-2 平臺,可進行雲原生超級計算。

該網路平臺由 NVIDIA Quantum-2 交換機、ConnectX-7 網路介面卡、BlueField-3 資料處理單元(DPU)和支援新架構的所有軟體組成。ConnectX-7 將於明年 1 月問世。

其中,Quantum-2 InfiniBand 交換機基於新的 Quantum-2 ASIC,採用臺積電 7N 節點,包含 570 個電晶體,超過有 540 億電晶體的 A100。

Quantum-2 InfiniBand 擁有 400Gbps,網路速度翻倍,交換機吞吐量增加了 2 倍,叢集可擴充套件性增為原來的 6.5 倍,同時降低了資料中心的功耗。

其多租戶效能隔離利用先進的基於遙測的擁塞控制系統,確保可靠的吞吐量,無論使用者激增或工作量需求激增,都能確保可靠的吞吐量,從而防止一個租戶的活動干擾其他租戶的活動。

相比上一代,第三代 SHARPv3TM 網路計算技術的交換機計算能力比原來高 32 倍,用於加速 AI 訓練。

新加速庫:優化路線規劃,加速量子模擬

最後,我們來看看 NVIDIA 推出的 3 個新加速庫。

首先是 NVIDIA ReOpt,這是一款針對運籌優化問題的加速求解器,可實現實時路線規劃優化。

以與 NVIDIA 合作的達美樂披薩為例,配送 14 個披薩的路徑有 870 億種,這意味達美樂要在 30 分鐘內將披薩送達絕非易事。

運籌優化對“最後一英里”配送是必需的,路線規劃是個極為棘手的物流問題,如果應用到行業中,即使是小規模的路線優化也能節省數十億美元。

黃仁勳展示了一個用 NVIDIA Omniverse 虛擬倉庫來展示優化路線在自動訂單揀選場景中的影響,優化後的規劃能使訂單揀選節省一半的時間和路程。

當前路線優化求解器收到新訂單後,需要數小時來重新執行和響應,而 ReOpt 能持續執行並實時動態地進行重新優化,在短短几秒鐘內響應並擴充套件至數千個位置。

第二個是 cuQuantum DGX 裝置,配備有針對量子計算工作流的加速庫,可用態向量和張量網路的方法來加速量子電路模擬。

谷歌 Cirq 將成第一個得到加速的量子模擬器。

藉助該裝置,曾經需要耗費幾個月的模擬,現在幾天就能完成。

NVIDIA 研究部門在量子演算法模擬方面取得了重要里程碑,用 1688 個量子位為 3375 個頂點集求解 MaxCut 問題。

這是有史以來最大的精確量子電路模擬,比以往模擬的量子位多 8 倍。

cuQuantum DGX 裝置將在第一季度推出。

第三個加速庫是在 PyData 和 NumPy 生態系統的大規模加速計算 cuNumeric,它允許使用者用 Python 程式碼在超級計算機上透明加速和擴充套件 NumPy 工作流,並無需更改程式碼。

它屬於 NVIDIA RAPIDS 開源 Python 資料科學套件,RAPIDS 今年的下載量超過 50 萬次,比去年增長了 4 倍多。NumPy 在過去 5 年下載量達到了 1.22 億次,別用於 GitHub 上近 80 萬個專案。

在著名的 CFD Python 教學程式碼中,cuNumeric 能擴充套件至 1000 個 GPU,而擴充套件效率僅比線性擴充套件效率損失了 20%。

結語

乘著 AI、高效能運算和元宇宙的東風,NVIDIA 今年過得可謂風生水起,市值一路扶搖直上,突破 7700 億美元。其 Omniverse 平臺更是被分析機構視作 NVIDIA 一項重要的平臺擴張戰略。

在這表面風光的背後,NVIDIA 的遠見和前瞻性不容小覷。無論是如火如荼的 AI,還是方興未艾的虛擬世界,NVIDIA 能成為科技熱潮的直接受益者,都離不開過去多年對其軟硬體產品的打磨。

此次 NVIDIA GTC 大會期間,我們還將看到更多覆蓋深度學習、資料科學、高效能運算、機器人等領域的最新進展,而始於 NVIDIA CUDA 的加速計算正在這些領域催化效率提升,推動現代科技快速進化、走向未來。