微軟和英偉達推出迄今為止訓練最大最強的語言模型 MT-NLG

阿新 • • 發佈：2021-10-12

10 月 12 日訊息語言模型（Language Model）簡單來說就是一串詞序列的概率分佈，主要作用是為一個長度為 m 的文字確定一個概率分佈 P，表示這段文字存在的可能性。

大家之前可能或多或少聽說過 GPT-3，OpenAI 最新的語言模型，堪稱地表最強語言模型，也被認為是革命性的人工智慧模型。除此之外還有 BERT、Switch Transformer 等重量級產品，而且業內其他企業也在努力推出自家的模型。

微軟和英偉達今天宣佈了由 DeepSpeed 和 Megatron 驅動的 Megatron-Turing 自然語言生成模型（MT-NLG），這是迄今為止訓練的最大和最強大的解碼語言模型。

瞭解到，作為 Turing NLG 17B 和 Megatron-LM 的繼任者，這個模型包括 5300 億個引數，而且 MT-NLG 的引數數量是同類現有最大模型 GPT-3 的 3 倍，並在一系列廣泛的自然語言任務中展示了無與倫比的準確性，例如：

完成預測
閱讀理解
常識推理
自然語言推理
詞義消歧

105 層、基於轉換器的 MT-NLG 在零、單和少樣本設定中改進了先前最先進的模型，併為兩個模型規模的大規模語言模型設定了新標準和質量。

據悉，模型訓練是在基於 NVIDIA DGX SuperPOD 的 Selene 超級計算機上以混合精度完成的，該超級計算機由 560 個 DGX A100 伺服器提供支援，這些伺服器以完整的胖樹（FatTree）配置與 HDR InfiniBand 聯網。每個 DGX A100 有 8 個 NVIDIA A100 80GB Tensor Core GPU，通過 NVLink 和 NVSwitch 相互完全連線。微軟 Azure NDv4 雲超級計算機使用了類似的參考架構。

更多內容可檢視微軟和英偉達官方說明：

微軟

英偉達

微軟和英偉達推出迄今為止訓練最大最強的語言模型 MT-NLG

微軟和英偉達推出迄今為止訓練最大最強的語言模型 MT-NLG

沃爾沃 XC90 純電車將於明年推出，標配鐳射雷達和英偉達自動駕駛晶片

英偉達推出全新 DPU 處理器透露未來三年 DPU 發展路線圖

外媒：任天堂 Switch Pro 將支援 4K 解析度和英偉達 DLSS，有望年底釋出

英偉達推出 Jetson TX2 NX：面向大眾市場的高效能 AI 產品

惠普 Envy 17 更新：英特爾 11 代 Tiger Lake 處理器和英偉達 MX450 獨顯，約 6500 元

英偉達推出 AI 繪畫工具 Canvas：將簡單塗鴉變成真實自然景觀

英偉達推出 RTX A2000 專業卡：70W 的“3060 刀卡”，十月上市

不同於 PlayStation 版本，《暗影火炬城》PC 版支援光線追蹤和英偉達 Reflex/DLSS 技術

《使命召喚 18：先鋒》首發即支援 AMD 的 FSR 和英偉達的 DLSS 技術

英偉達推出全新 Jetson AGX Orin ：全球最小、功能最強大、能效最高 AI 超算

英偉達推出 497.09 版顯示卡驅動，正式支援 RTX 2060 12GB 顯示卡

英偉達推出“超級縫合體”PoE GAN，輸入文字草圖語義圖都能生成逼真照片

英偉達推出第 4 代 Max-Q 技術：CPU / GPU 智慧協作，電池模式續航提升

英偉達推出新款 T1000 8GB 入門級專業顯示卡，GTX 1650 效能

《賽博朋克 2077》PC 版支援 AMD FSR 技術，不再支援 Win7 和英偉達 700 系列顯示卡

英偉達推出 RTX 3080 級 GeForce NOW 雲遊戲月度訂閱服務，20 美元 / 月

一鍵實時共享 3D 資產，英偉達推出面向遊戲開發者的 Omniverse

黑掉微軟、英偉達、三星的黑客組織 Lapsus$ 主謀被鎖定為 16 歲英國少年

倫敦警方逮捕 7 名黑客組織 Lapsus$ 相關青少年，曾黑掉微軟、英偉達、三星

微軟和英偉達推出迄今為止訓練最大最強的語言模型 MT-NLG

相關推薦