1. 程式人生 > 其它 >阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

阿里雲神龍AI加速引擎幫助vivo將訓練效能提升30%-70%

公司簡介

vivo是專注於智慧手機領域的國際化品牌,vivo追求樂趣、充滿活力、專業音質、極致影像、愉悅體驗的智慧產品,並將敢於追求極致、持續創造驚喜作為vivo的堅定追求。 2014年vivo品牌的國際化之路全面開啟,除中國大陸市場外,vivo進駐的海外市場包含印度、泰國、緬甸、馬來西亞、印度尼西亞、越南和菲律賓。

 

業務痛點

1. GPU利用率不高,資源浪費明顯VIVO客戶的業務場景中使用的是大規模多模態模型。對該類模型進行分散式訓練時,通常使用單步更新的訓練模式,即每一次單步訓練之後都會進行一次梯度通訊,這樣會導致短時間內出現大量的通訊請求,造成很大的通訊壓力。同時,該模型的引數量較大,每次梯度通訊的通訊量與模型引數量成正比,這進一步的增加了通訊壓力。另外,該模型的訓練過程中也沒有對計算和通訊進行時間上的重疊,這也顯著的導致了訓練過程中的通訊時長的增加。整個分散式訓練過程中大量的時間被梯度通訊佔據,

GPU的計算資源在大多數時間處於等待狀態,無法完美髮揮作用。

 

2. 訓練時間長,業務模型迭代週期太長:客戶業務模型的更新頻率很高,每次模型迭代期間不僅要進行模型的分散式訓練,還要進行測試,上線等流程。在這個迭代週期內,分散式訓練佔據了大量的時間,導致其它流程不得不精簡以保證迭代週期,這也使得客戶的業務團隊承擔不小的壓力。

 

解決方案

對大規模多模態模型進行分散式訓練時,由於通訊壓力巨大,相比於單機訓練,多機訓練獲得的效能增益並不多,在雙機場景下甚至觀察到效能的負增長。於是,裡雲的神龍AI加速引擎AIACC團隊,針對VIVO的場景,在底層針對通訊、計算、時延和頻寬等做了深度優化。由於客戶訓練叢集的網路狀況有可能發生變化,

AIACC團隊採用了自適應優化策略,能夠實時的根據網路狀況對通訊優化策略進行調整,從而大大提升了GPU的利用率。

 

在多種複雜的網路條件下,將大規模多模態模型的訓練效能提升了30%-70%AIACC團隊協助VIVO客戶大大的縮短了的模型訓練時間,加速模型迭代,助力業務模型快速上線

 

業務價值

1. 在多種複雜的網路條件下,將大規模多模態模型的訓練效能提升了30%70%

2. 縮短了客戶業務模型的迭代週期,為客戶的業務團隊減輕了壓力。

 

相關產品

 

神龍AI加速引擎

神龍AI加速引擎是AIACC業界首個統一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度學習框架的加速引擎,拿下斯坦福深度學習榜單Dawnbench影象識別四個世界第一。

更多關於神龍AI加速引擎的介紹,參見神龍AI加速引擎幫助文件

 

GPU雲伺服器

GPU 雲伺服器(GPU Cloud Computing,GPU)是提供 GPU 算力的彈性計算服務,具有超強的計算能力,服務於深度學習、科學計算、圖形視覺化、視訊處理多種應用場景。阿里雲作為亞洲第一的雲服務提供商,隨時為您提供觸手可得的算力,有效緩解計算壓力,提升您的業務效率,助您提高企業競爭力。

更多關於GPU伺服器的介紹,參見GPU伺服器產品詳情頁