1. 程式人生 > 實用技巧 >阿里是如何構建一個高效的端到端AI演算法平臺

阿里是如何構建一個高效的端到端AI演算法平臺

本話題將圍繞深度演算法學習工程,詳細介紹在淘寶搜尋,推薦,廣告業務的最佳實踐

AI驅動淘寶搜尋、推薦、廣告技術的深入發展

今天你在淘寶上所看到的大量的內容,都已經是千人前面的個性化,其中搜索推薦廣告業務作為核心的內容分發形態,在這其中發揮了重要的作用。在過去的5年,以深度學習技術為代表的AI技術成為搜尋推薦廣告業務突破的核心驅動力。深度學習的核心要素是算力、演算法和資料,如何構建一個高效的端到端AI平臺,直接決定了業務的天花板和迭代進化效率。

在這裡插入圖片描述

1.算力需求持續提升
在AI 演算法越來越智慧的背後,是對於算力需求的持續提升。
• 從演算法視角來看,演算法工程師希望可以像搭積木一樣自由進行模型設計組裝,並且快速進行效果驗證,從而模型複雜度也越來越大,其中包含稀疏理解表徵,持續行為刻畫以及全連線網路的各種網路結構的負荷 。

• 從計算規模角度看,模型規模達到百億特徵,千億引數,模型大小達到TB量級,對模型訓練和線上模型預估都是巨大的挑戰。
在這裡插入圖片描述

2.演算法多樣性的提升
演算法多樣性越來越高,標準的DNN模型以外,圖聲音網路、強化學習、基於樹的深度學習等技術也在淘寶的業務中得到了廣泛的應用。

• 圖聲音網路可以刻畫使用者和商品之間的連線,從而使用GraphEmbedding技術提升商品召回能力;
• 強化學習技術優化廣告中的OCPC智慧出價,從而使廣告組的每一分錢花的更加精準;
• Tree-based Deep Match技術在廣告召回功能,融入了更強大的模型刻畫能力。

端到端的演算法平臺

演算法的複雜度、多樣性都越來越高,這一切都需要一個高效的端到端演算法平臺來保障。

1.3個維度的優化目標

AI算力的無限需求
持續的釋放深度學習的算力,從而推高演算法效果的天花板;
加速迭代效率
端到端的一致性體驗,保障演算法的全流程迭代效率;
賦能演算法創新
平臺設計要有足夠高的靈活性,支援演算法形態的持續創新;

2.AI·OS大資料深度學習工程技術體系
AI·OS作為大資料深度學習工程技術體系,發展至今包括AIOfflinePlatform(一站式建模平臺)和AIOnlineServing(AI線上服務體系),在離線系統無縫連結,構成了端到端大資料AI智慧引擎。目前支撐起海內外阿里電商全部的搜尋、推薦、廣告業務,時刻置身大資料主戰場,引導成交佔據集團電商大盤主體;此外,作為中颱技術中堅,AI·OS已是包括電商、阿里雲、優酷、菜鳥、盒馬、釘釘等等在內全集團的基礎設施,更為重要的是,AI·OS體系的雲產品(開放搜尋和智慧推薦)矩陣通過阿里雲服務於全球開發者。

在這裡插入圖片描述

3.工業級機器學習解決的問題
工業級機器學習解決的問題的複雜性不單是關注演算法模型的程式碼的開發,而是一個涉及在離線閉環的,包括特徵、樣本,模型的全鏈路問題。
在這裡插入圖片描述

4.一站式建模平臺
面向搜尋、推薦、廣告這樣的場景,開發了一站式建模平臺,提供包括特徵管理,樣本組裝,模型訓練與評估,模型交付的全鏈路端到端的能力。

一站式建模平臺底層基於KubeFlow雲原生底座,提供批量學習 (Batch)和流式學習(Online )的能力。
XFC提供標準化特徵的管理和動向,Channel是樣本計算的概念抽象,Model center是模型工廠部分提供的模型訓練、模型共享、模型交付。
在這裡插入圖片描述

模型分析系統多維度模型視覺化分析和模型安全性的校驗,基於這些的邏輯抽象,演算法工程師不需要關注底層系統的執行,只要編輯演算法流程的邏輯描述,即可實現的演算法流程的開發部署以及線上運維。在此基礎上平臺內建了統一的計算儲存的血緣管理,基於此關係,以及演算法邏輯描述的分析,平臺有一套計算儲存編輯優化層,可以自動的進行特徵、樣本、模型資料的共享和計算儲存的優化。例如:當我們發現2組演算法實驗流程特徵重合度很高時,我們的系統會自動合併兩組特徵計算和儲存,大大提升整個平臺的儲存效率。
通過以上平臺級賦能更多的業務創新可以實現更低的成本實現工程實施與效果驗證,從而實現產品創意到演算法,到工程的快速迭代迴圈。

批流一體的線上深度學習解決方案

隨著對著業務時效性的追求越來越強,線上深度學習技術越來越重要。為此我們提供了批一體的線上深度學習解決方案,使得模型可以實時更新,業務則可以及時的捕捉使用者的行為變化。

1.什麼是批流一體
就是可以用一套演算法邏輯描述既可以進行天級的批量學習,也可以進行線上實時學習,這樣可以大幅減少演算法流程開發的複雜度,還可以保障全量模型和實時模型之間的一致性。

• 基於Blink進行特徵樣本的實時計算,得益於Blink強大的計算能力,可以提供百萬級QPS的流失樣本的高可靠計算,基於XDL深度學習框架模型進行深度實時訓練,同時可以提供高可靠的實時模型校驗能力,最後把模型實時變化的更新成RTP線上模型服務,最快可以提供端到端的分鐘級模型更新能力,在阿里的搜尋、推薦、廣告業務上發揮巨大作用,大幅度提升了系統時效性。

在這裡插入圖片描述

2.XDL:高維稀疏訓練引擎
深度學習的算力的提升,主要提現了兩個關鍵環節

(1)深度模型訓練的效率;
(2)深度模型線上預估的效率;
搜尋推薦廣告是高維稀疏的場景,特徵規模和引數規模高達百億、千億量級,模型呈現既寬又深的特點,需要同時進行寬度計算優化和深度計算優化.
在這裡插入圖片描述

XDL是面向高維稀疏場景打造的分散式深度學習訓練框架
• 進行大量的分散式模型優化,重新設計高效能的引數伺服器,基於實時統計的動態引數放置策略,消除引數伺服器的計算熱點,同時實現優雅的分散式容災策略,以便進行更高效的高併發訓練。
• 在計算加速上,進行大量分散式計算圖優化,包括高效能資料處理流水線,稀疏運算元融合,引數交換的通訊合併,極致的計算和通訊的非同步化等。一系列優化使得XDL可以支援數百億特徵,數千億引數,千級資料平行的分部署式高維稀疏訓練,優秀的自動分散式能力和自動流水線能力使得模型開發人員無需關心底層的細節,只需關注自身的模型開發邏輯即可;
• 在高層正規化層面,XDL支援良好的結構化訓練和流式訓練能力,結構化訓練是指利用搜索推薦廣告場景下網際網路樣本結構化的特點,充分減少前項計算和後項計算,大幅提升訓練效率。

3.RTP:分散式預估服務
RTP,作為AIOS提體系的分散式深度學習預估服務,將機器學習線上預測能力模組化提供了強大的模型應用編排能力,使得機器技術可以應用到搜尋推薦廣告線上服務的全鏈路中,包括召回,精排,重排以及摘要選取等各個環節。
RTP還可以提供分散式模型和分散式特徵之間的全量一致性切換語義,也可以支援TB級別模型的線上服務。
• 深度模型的線上推理效率是至關重要的,需要在一定延遲約束下,進行大量深度學習的計算,為此在推理異構計算方面RTP集成了專門的異構推理計算加速引擎,可以同時支援FPG、CPU、GPU、阿里NPU等各種各樣的異構硬體,為業務在深度學習領域提供了巨大的算力;
• 從離線訓練的模型到線上預估模型,整個交付環節是也很重要,在這個過程中,需要對模型進行量化壓縮,模型計算圖改寫邏輯,從而保證模型的線上推理邏輯的最大化。
在這裡插入圖片描述

總結

為了支援演算法快速的迭代,淘寶構建了一套在離線閉環的端到端演算法平臺,使得演算法解決方案可以在不同場景之間快速複製與遷移,針對核心的訓練引擎和預估引擎,結合搜尋推薦廣告的高維稀疏的特點, 進行深入的場景優化,使得AI演算法可以充分利用算力來推升演算法效果的天花板。

如果對阿里搜尋推薦技術感興趣,可以點選

開放搜尋
智慧推薦

瞭解更多內容與實踐