1. 程式人生 > 資訊 >阿里達摩院釋出全球最大 AI 預訓練模型 M6:引數躍遷至 10 萬億

阿里達摩院釋出全球最大 AI 預訓練模型 M6:引數躍遷至 10 萬億

11 月 8 日訊息,今天,阿里巴巴達摩院公佈多模態大模型 M6 最新進展,其引數已從萬億躍遷至 10 萬億,成為全球最大的 AI 預訓練模型。

M6 是達摩院研發的通用性人工智慧大模型,擁有多模態、多工能力,尤其擅長設計、寫作、問答,在電商、製造業、文學藝術、科學研究等領域有廣泛應用前景。

與傳統 AI 相比,大模型擁有成百上千倍“神經元”數量,認知和創造能力也更勝一籌,被普遍認為是未來的“基礎模型”。但大模型的算力成本相當高昂,訓練 1750 億引數語言大模型 GPT-3 所需能耗,相當於汽車行駛地月往返距離。

今年 5 月,通過專家並行策略及優化技術,達摩院 M6 團隊將萬億模型能耗降低超八成、效率提升近 11 倍。

10 月,M6 再次突破業界極限,使用 512 GPU 在 10 天內即訓練出具有可用水平的 10 萬億模型。相比去年釋出的大模型 GPT-3,M6 實現同等引數規模,能耗僅為其 1%。

▲將 10 萬億引數放進 512 張 GPU

模型擴充套件到千億及以上引數的超大規模時,將很難放在一臺機器上。

為了幫助多模態預訓練模型進行快速迭代訓練,達摩院在阿里雲 PAI 自研 Whale 框架上搭建 MoE 模型,並通過更細粒度的 CPU offload 技術,最終實現將 10 萬億引數放進 512 張 GPU:

  • 自研 Whale 框架:自研 Whale 分散式深度學習訓練框架,針對資料並行、模型並行、流水並行、混合並行等多種並行模型進行了統一架構設計,讓使用者在僅僅新增幾行 API 呼叫的情況下就可以實現豐富的分散式並行策略。

  • MoE 專家並行策略:在 Whale 架構中實現 Mixture-of-Experts(MoE)專家並行策略,在擴充套件模型容量、提升模型效果的基礎上,不顯著增加運算 FLOPs(每秒所執行的浮點運算次數),從而實現高效訓練大規模模型的目的。

  • CPU offload 創新技術:在自研的分散式框架 Whale 中通過更細粒度的 CPU offload,解決了有限資源放下極限規模的難題,並通過靈活地選擇 offload 的模型層,進一步地提高 GPU 利用率。

此外,針對訓練效率問題,M6 團隊設計了 Pseudo-to-Real(共享解除)機制,即利用訓練好的共享引數模型初始化大模型,讓收斂效率進一步提升 7 倍,解決大模型訓練速度慢的問題。

對比不使用該機制,預訓練達到同樣 loss 用時僅需 6%;和此前萬億模型相比,訓練樣本量僅需 40%。

作為國內首個商業化落地的多模態大模型,M6 已在超 40 個場景中應用,日呼叫量上億。

今年,大模型首次支援雙 11,應用包括但不限於:

  • M6 在犀牛智造為品牌設計的服飾已在淘寶上線;

  • 憑藉流暢的寫作能力,M6 正為天貓虛擬主播創作劇本;

  • 依靠多模態理解能力,M6 正在增進淘寶、支付寶等平臺的搜尋及內容認知精度。

▲M6 設計的飛行汽車

未來,M6 將積極探索與科學應用的結合,通過 AI for science 讓大模型的潛力充分發揮,並加強 M6 與國產晶片的軟硬一體化研究。

目前,達摩院聯合阿里雲已推出 M6 服務化平臺(https://m6.aliyun.com),為大模型訓練及應用提供完備工具,首次讓大模型實現“開箱即用”,演算法人員及普通使用者均可方便地使用平臺。