阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

阿新 • • 發佈：2022-03-15

公司簡介

vivo是專注於智慧手機領域的國際化品牌，vivo追求樂趣、充滿活力、專業音質、極致影像、愉悅體驗的智慧產品，並將敢於追求極致、持續創造驚喜作為vivo的堅定追求。 2014年vivo品牌的國際化之路全面開啟，除中國大陸市場外，vivo進駐的海外市場包含印度、泰國、緬甸、馬來西亞、印度尼西亞、越南和菲律賓。

業務痛點

1. GPU利用率不高，資源浪費明顯：VIVO客戶的業務場景中使用的是大規模多模態模型。對該類模型進行分散式訓練時，通常使用單步更新的訓練模式，即每一次單步訓練之後都會進行一次梯度通訊，這樣會導致短時間內出現大量的通訊請求，造成很大的通訊壓力。同時，該模型的引數量較大，每次梯度通訊的通訊量與模型引數量成正比，這進一步的增加了通訊壓力。另外，該模型的訓練過程中也沒有對計算和通訊進行時間上的重疊，這也顯著的導致了訓練過程中的通訊時長的增加。整個分散式訓練過程中大量的時間被梯度通訊佔據，

GPU的計算資源在大多數時間處於等待狀態，無法完美髮揮作用。

2. 訓練時間長，業務模型迭代週期太長：客戶業務模型的更新頻率很高，每次模型迭代期間不僅要進行模型的分散式訓練，還要進行測試，上線等流程。在這個迭代週期內，分散式訓練佔據了大量的時間，導致其它流程不得不精簡以保證迭代週期，這也使得客戶的業務團隊承擔不小的壓力。

解決方案

對大規模多模態模型進行分散式訓練時，由於通訊壓力巨大，相比於單機訓練，多機訓練獲得的效能增益並不多，在雙機場景下甚至觀察到效能的負增長。於是，阿裡雲的神龍AI加速引擎AIACC團隊，針對VIVO的場景，在底層針對通訊、計算、時延和頻寬等做了深度優化。由於客戶訓練叢集的網路狀況有可能發生變化，

AIACC團隊採用了自適應優化策略，能夠實時的根據網路狀況對通訊優化策略進行調整，從而大大提升了GPU的利用率。

在多種複雜的網路條件下，將大規模多模態模型的訓練效能提升了30%-70%。AIACC團隊協助VIVO客戶大大的縮短了的模型訓練時間，加速了模型迭代，助力業務模型快速上線。

業務價值

1. 在多種複雜的網路條件下，將大規模多模態模型的訓練效能提升了30%～70%。

2. 縮短了客戶業務模型的迭代週期，為客戶的業務團隊減輕了壓力。

相關產品

神龍AI加速引擎

神龍AI加速引擎是AIACC業界首個統一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度學習框架的加速引擎，拿下斯坦福深度學習榜單Dawnbench影象識別四個世界第一。

更多關於神龍AI加速引擎的介紹，參見神龍AI加速引擎幫助文件。

GPU雲伺服器

GPU 雲伺服器（GPU Cloud Computing，GPU）是提供 GPU 算力的彈性計算服務，具有超強的計算能力，服務於深度學習、科學計算、圖形視覺化、視訊處理多種應用場景。阿里雲作為亞洲第一的雲服務提供商，隨時為您提供觸手可得的算力，有效緩解計算壓力，提升您的業務效率，助您提高企業競爭力。

更多關於GPU伺服器的介紹，參見GPU伺服器產品詳情頁。

阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

公司簡介

業務痛點

解決方案

業務價值

相關產品

神龍AI加速引擎

GPU雲伺服器

阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

效能提升40%！阿里雲神龍大資料加速引擎獲TPCx-BB世界排名第一

阿里雲cdn預熱(加速網頁反應速度)

雲米 AI 新風洗烘一體機將於 5 月 26 日釋出

阿里雲力奪FewCLUE榜首！知識融入預訓練+小樣本學習的實戰解析

AI降成本利器！阿里雲彈性加速計算例項來了，最高節省50%推理成本

2021雲棲大會丨阿里雲釋出第四代神龍架構，提供業界首個大規模彈性RDMA加速能力

阿里雲釋出第四代神龍架構，提供業界首個大規模彈性RDMA加速能力

win7中使用docker ——配置阿里雲容器加速

【Docker】映象加速（阿里雲映象加速）

阿里雲引擎ACE 試用筆記

ESP8266 SDK開發: 物聯網篇-阿里雲物聯網平臺加入規則引擎(雲產品流轉),讓MQTT裝置之間實現通訊

阿里雲函式計算髮布新功能，支援容器映象，加速應用 Serverless 程序

雲端計算市場現狀：我國加速增長，阿里雲、浪潮表現亮眼

阿里雲AI文字識別

阿里雲釋出神龍 4.0 架構：將雲端計算帶進 5 微秒時延時代

阿里雲混合雲Apsara Stack 2.0釋出加速政企數智創新

阿里雲邊緣雲ENS再升級四大場景應用加速產業數字化落地

基於 RocketMQ 構建阿里雲事件驅動引擎EventBridge

雲釘一體加速，阿里雲端計算巢與釘釘深度融合、共建應用新生態

阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

公司簡介

業務痛點

解決方案

業務價值

相關產品

神龍AI加速引擎

GPU雲伺服器

相關推薦