面向高維稀疏資料場景,阿里媽媽宣佈開源XDL深度學習框架
據介紹,作為阿里巴巴旗下的大資料營銷平臺,阿里媽媽基於自身廣告業務自主研發了深度學習框架X-Deep Learning(XDL),且已經大規模部署應用在核心生產場景。
阿里媽媽表示,這也是業界首個面向高維稀疏資料場景的深度學習開源框架,突破了現有深度學習開源框架大都面向影象、語音等低維連續資料而設計的現狀。
資料的高維稀疏性既是阿里媽媽業務場景的重要特徵,也是網際網路的眾多核心應用場景(如廣告/推薦/搜尋等)的特徵,覆蓋了大多數網際網路企業的資料應用模式。對於難以與BAT研發能力比肩的眾多網際網路公司而言,阿里媽媽表示工業級深度學習框架XDL及內建演算法方案的開源,將助力各大公司的技術升級,大大提升廣告/推薦/搜尋場景的精準性,縮短技術迭代週期。
面向廣告、推薦、搜尋研發,XDL覆蓋網際網路最核心的場景
隨著深度學習的風靡,阿里媽媽以演算法先行的方式進行了探索,實驗效果非常好,但很快也發現,已有的開源框架很難滿足其廣告場景的規模性及生產迭代要求,自研面向工業應用的分散式深度學習框架隨即被提上了日程。
據介紹,新框架XDL針對阿里媽媽業務資料高維稀疏的場景特點進行了優化,效能遠超當時業界眾多的開源框架,自2016年下半年開始逐步部署到阿里媽媽的業務系統,至2017年初全面完成了生產化。以阿里媽媽定向廣告為例,XDL框架助力了業務場景所有核心演算法的深度學習創新,當年,以XDL為基礎的深度學習演算法升級帶來的廣告收入提升超過百億。
不僅是廣告場景,網際網路其它的核心場景如推薦、搜尋等,也具有典型的高維稀疏資料特性,例如微博、抖音、今日頭條等都屬於該範疇內。因此,XDL在這些場景中也具有非常高的通用性,這為開源提供了基礎。不管是以廣告、推薦、搜尋為代表業務的企業級使用者,還是對此感興趣的個人使用者,都可以加入到開源計劃當中。
值得一提的是,在阿里巴巴XDL開源之前,業界的深度學習開源框架基本是面向影象、語音處理等場景資料而設計,這與整個人工智慧領域的研究重點有關,影象和語音是率先取得理論突破的場景,但在工業級網際網路場景中實現大突破還屬首次。
此外,據機器之心瞭解,XDL包含三個核心元件:全非同步流水線並行的分散式執行時XDL-Flow;面向稀疏資料學習的高階模型伺服器AMS;本地計算引擎,外掛化支援任意開源框架的Backend Engine。
開放與易用,阿里巴巴引領業界高維稀疏資料的技術標準
據阿里媽媽透露,XDL框架從設計之初,就具備了足夠的開放性和易用性,開源是水到渠成的一步。
整體而言,XDL具有多項核心能力。如XDL創造性地採用了橋接的架構設計理念,重點打造面向工業級應用的分散式規模能力,單機能夠處理的計算則引用現有開源框架。這種橋接的架構,使得XDL跟業界的開源社群是無縫對接的,例如使用者可以非常方便地在XDL框架上應用基於Tensorflow或者Pytorch編寫的最先進開源深度學習演算法。此外,對於已經在使用其它開源框架的企業或者個人使用者,也可以在原有系統基礎上輕鬆進行擴充套件,享受XDL帶來的高維稀疏資料場景下極致的分散式能力。
除了核心的XDL訓練框架外,阿里媽媽透露將全面開源面向高維稀疏資料場景的系統化解決方案,計劃分批次對外發布,包括面向線上實時服務的高效能深度學習預估引擎、面向全庫實時檢索的全新深度學習匹配引擎;同時還內建阿里媽媽自主研發的一系列創新演算法,涉及CTR預估模型、CVR預估模型、匹配召回模型、模型壓縮訓練演算法等等。
阿里媽媽“讓天下沒有難做的營銷”的使命在近年來又多了一層含義,Ad Tech 技術驅動廣告的色彩明顯。阿里媽媽產品技術部資深總監蓋坤錶示,阿里媽媽希望通過技術開源來賦能大家,引領業界高維稀疏資料計算的技術標準,推動整個領域技術的整體前進,讓創新的演算法、框架方案層出不窮。
原文釋出時間為:2018-11-28
本文作者:李亞洲