1. 程式人生 > >阿里文娛永叔:利器or成本損耗?演算法不是黑匣子

阿里文娛永叔:利器or成本損耗?演算法不是黑匣子

2018年9月16日,由AICUG人工智慧技術社群、Datafun社群、博學聯合主辦的2018 AI先行者大會於杭州召開,來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的AI實踐經驗。集百家之長,將AI研究與應用領域最新的成果進行分享呈現。

作為實現人工智慧的一大途徑,機器學習與業務的深度結合一直是技術愛好者們關注的方向,會間,我們邀請到阿里商業機器智慧演算法團隊及優酷演算法技術團隊負責人王曉博(永叔),圍繞機器學習的落地應用實踐展開問答,以下為正文:

CSDN:首先,請您做一下自我介紹,包括您所關注的技術領域,以及您所在的團隊等。

永叔: 我10年博士畢業,主要從事資料探勘方向,先後在百度搜狗負責廣告策略演算法團隊,工作內容涉及展示廣告和搜尋廣告。15年3月加入阿里,主要負責淘寶主站的推薦,即淘寶商品的資訊流推薦,例如首頁的猜你喜歡。從今年開始同時負責兩個事業群的演算法團隊,其一是淘寶技術部商業機器智慧的演算法團隊,主要涉及2B的商家端智慧,同時也有2C的業務,包括內容及商品的推薦。在文娛方面主要負責整個優酷的演算法技術平臺,包括優酷的搜尋、推薦、內容理解、會員的智慧營銷,以及後端的雲端引擎平臺等。技術領域方面,我主要關注兩個方向,一是計算廣告學,二是這幾年一直從事的推薦演算法。

CSDN:請談談您及團隊在現階段的研究側重點或下一步研究和實踐(例如應用到哪些領域)計劃?

永叔: 目前我們(優酷)的研究重點包括:

① 內容理解:從過去的整體內容理解到元素級的內容理解,我們的目標是儘量縮小機器和人在看完一段視訊後所能獲取資訊的差距; ② 多模態的視訊搜尋和推薦; ③ 小樣本和領域知識相結合。

CSDN:是什麼契機讓您選擇了大規模分散式機器學習這一研究分支?

永叔: 我的博士課題是複雜網路(Complex Network),也就是圖挖掘方向,但是在我加入百度廣告策略演算法團隊時,團隊裡PhD比較少,那會大家去高校、研究所的比較多。而當時(09、10年)也正是機器學習被大批量引入網際網路公司的時期,我就被“丟到”一個我完全陌生的領域——點選率預估,參與網盟廣告的點選率預測。點選率預估就是一個典型的0-1二分類問題,但由於其面臨的資料體量非常龐大,為了儘可能提升預估的準確率,我們用了半年的資料來做預估,因此可以說我是由於業務原因,而進入了大規模機器學習領域。

CSDN:在您看來,機器學習在人工智慧的發展中扮演著怎樣的角色?深度學習對機器學習的意義?

永叔: 人工智慧領域其實很寬,從最早大家提及的人工智慧,到後來逐漸代之以機器智慧,機器學習為人工智慧提供了一條可以實際應用落地的道路。因為過去談到人工智慧就是下棋、語音識別等,而從80年代末90年代初,統計機器學習逐漸佔據壟斷地位之後,該技術可以與任何行業進行深度結合。無論資料量多少,機器學習技術都能幫助提效,且具備一定的預判性。

深度學習本身並不是一個很新的概念,也就是六七十年代就曾提出的人工神經網路(ANN),其本質相當於把所有事情變成一個學習非常複雜的非線性函式,模型的引數數量代表了模型本身的建模表達能力,比如學習一個簡單的線性函式,還是一個超越函式,甚至一個非常複雜的邏輯函式,深度學習相當於提供了一個可以規模化的方法,每個學習單元就像是仿生學裡的神經元,都是一個非常簡單的sigmoid邏輯斯蒂迴歸的二分類分類器。它和Boosting比較像,由許多弱分類器組成強分類器,只不過用各種各樣不同的網路結構將其堆疊起來,能夠形成一個比較複雜的具備較強表達能力的學習模型。

深度學習起初在影象和語音這兩個領域應用得比較好,而最近三年,其在自然語言處理中逐漸形成了一個各方面開花的趨勢。深度學習為機器學習提供了一個子集,但是這個子集利用現在強大的硬體資源能夠把問題本身的建模模型表達能力推到一個新高度,一些過去無法學到的東西現在都可以通過這種技術完成學習。

CSDN:推薦系統的冷啟動問題算是產品推薦中的一大痛點,也是一個比較大的話題,對此,可否結合一些相對簡明的例子和大家聊一聊您及團隊在這方面的經驗總結?

永叔: 自推薦系統誕生起的三十餘年間,冷啟動就是一個伴隨其始終的問題,即當你對於你的使用者所知甚少,或是一無所知的時候,應該如何進行推薦。無非兩種手段,第一個手段是儘可能獲取更多相關資訊,例如在初期通過問卷方式採集使用者的興趣資訊。阿里旗下有諸多APP,而我們的使用者也擁有統一的賬號,以前段時間推出的88會員為例,我們在完全不瞭解新使用者在文娛領域興趣的情況下,依然可以將淘寶、餓了麼等平臺的偏好相關的資訊和資料作為一個隱空間去學,這些資訊也可以用於遷移學習,可以和文娛的視訊推薦共享特徵。此外,location也是一大資訊來源,當座標很接近時,例如同小區的住戶,至少身份地位或收入差不多,這些資訊可以用於做人群推薦。因此,處理冷啟動問題的第一個大思路就是儘可能多地擴充套件使用者資訊的獲取維度,用遷移學習的方式解決當下的推薦子領域中資料資訊缺失地問題。

第二個手段則是建立在對使用者一無所知的狀態下,即什麼資訊都拿不到的情況。這種情況下,我們可以採用探索和發現(E&E,Explore and Explored)策略,也可以用強化學習。先以隨機試探的方法切入,比如一共有一千個標籤,我們可以選擇一些熱門標籤開始試探,測試使用者對哪些東西有反饋,即產生了點選或觀看,再在此基礎上延展開。此處的探索與隨機探索之間的區別就在於它可以設定一個獎勵函式,在加了約束的條件下,對冷使用者產生的有效觀看次數或點選次數做線上學習,進而降低探索過程的損失。

CSDN:較之電商平臺,視訊網站類平臺在個性化推薦的落地問題上,是否存在需要特別注意的方面?

永叔: 電商和視訊在推薦方面的差異還是比較大的,因為電商商品維度的資料標準化做得相對比較好,像是衣服的材質、品類等,可以算作結構化的資料特徵。雖然在電商裡情境下,服飾屬於非標類,但我們可以獲取的屬性資訊其實非常多,但在視訊業務中,我們沒有多少標準化屬性特徵,使用者也不像電商中那樣,有“潛客”、“回頭客”、“老客”或是“新客”這樣非常清晰的分類和興趣標籤。影劇綜漫對其使用者認知和“貨”的認知分類是沒有統一標準的,基本上每個公司乃至團隊之間都有所不同,因此資料上有很多異構性。此外,電商情境下推薦的特色是貨品數量遠大於使用者數量,而長視訊恰恰相反,這也是視訊推薦挑戰的一個來源。

而視訊之所以為非標,是因為我們未將其分解到元素級——理解都還停留在業務層面,類似於偵探劇、愛情劇這樣的分類,我們可以分出各種各樣的業務目標,但在原子標下,其本質都會變成其中的人物、時間、地點和活動,而這些東西是可以標準化的,換言之,表達方式和表達語言可以標準化,這些東西標準化之後,技術上就比較好處理了,也可以通過類似於OWL這樣的語言,來組織上層應用的標籤體系。

接下來是將少量視訊內容推給大量使用者的問題。這種情況下,精品長視訊推薦由於數量限制常常陷入困境,為了讓使用者形成長時間的觀看,就需要獲取其閒暇時段的資訊。過去的推薦往往按照點選率排序,而目前則常會用到以短代長的方法,這就需要進行使用者時間的預測和區分,例如手機端可以通過複雜場景分析、感測器識別等手段,判斷其所處情境:如果使用者正在相對放鬆休閒的環境中,即採取長視訊推薦;如果是正在移動中的碎片化時間,就可以先推一些花絮,達到引導訂閱稍後再看的目的,這時,我們就從單純的點選率排序轉為預估未來的“預約單”形式,從即時回報變為即時+延時回報。

CSDN:您如何看待谷歌的AutoML?

永叔: 我們之前談到的小樣本學習就與此相關,我們團隊花了約一年的時間打造了阿里支援千億特徵的海量機器學習平臺XPS (eXtreme Parameter Sever) 。事實上,在這類機器學習平臺上,大家都一窩蜂地去用Tensorflow,但Tensorflow在企業中的效能卻很有限,對外開源的版本在runtime優化上有不小的問題,很難解決萬億樣本、千億特徵的實際問題,因此各大公司都會有這種自己定製的面向海量資料場景特定優化的訓練系統。這裡涉及兩大法寶,一是調網路結構,二是調引數。每一層有多少個啟用神經元,學習的各維度(dimension),feature dimension的size是多少,網路結構長什麼樣子,是用卷積還是殘差層……大家會變換各種不同的組合,如果是RNN這樣的反饋式網路的話,什麼時候引入反饋邊,什麼時候在網路區域性引入多維的反饋層——網路結構設計會越來越複雜,但好處是百花齊放,大家在一個巨大的空間內展開探索,所以現在深度學習的文章是最容易灌水的,但這些在未來肯定會被終結,這就是AutoML在做的事情。

例如很多人說學特徵,是學1024位,還是512位,還是2048位?到底學多少維度?所有輸入層特徵都是一個緯,這個空間非常大。假設有一千萬個特徵,每個都是1024位,不同的特徵在樣本中的覆蓋率不同,其本身的表徵不一樣,以男女性別特徵和影象特徵為例,兩個人表達的資訊量完全不一樣,因為影象的空間非常大,一個512×512的影象,把RGBA中的Alpha通道去掉,RGB這三個通道中,每個通道都是256的三次方,再乘上512的平方,這是一個巨大的空間。但是男女只有兩個值,如果也用一個1024位的特徵去學,看上去是對齊了,但實際它的覆蓋率又很高,因此特徵學習很容易出現問題,所以現在的AutoML這要解決的幾類問題包括:

① 網路結構的動態設計;

② Feature embedding size的動態學習;

③ 網路模型中需要根據資料做動態調參,包括每一層需要多少個神經元,需要多少維度的引數表達。對於過去需要耗費很多人力的負責人肉調參、調結構,AutoML這個框架為未來提供了一個解決思路;

④ 網路壓縮,因為現在越來越多的模型會放在手機端上執行,像是最新推出的A12處理器裡就有專門的神經網路處理單元(NPU),它就是為了在手機上做加速。網路壓縮也要去調大量的引數,而網路壓縮的核心任務就是將現有的學習精度比較高的大模型,壓縮到一個小的尺寸,像是將一個幾個G的模型壓縮到幾十兆。例如淘寶的影象和美實驗室正在做的OCR光學字元識別模型,我們可以把通用的幾十兆的模型壓到幾兆,精度只有很小的損失。

這些都是AutoML未來的發展方向。人類由懶惰促進技術進步,但凡是覺得很複雜瑣碎的問題,最終都會誕生一些相應的技術予以解決。

CSDN:下面,請您聊聊搜尋領域應對大促場景的多模態和線上學習技術。

永叔: 這些年來的大促對於搜尋而言確乎挑戰頗多,現在的大促已經分成了三段,分別是造勢期、預熱期和正式期。這與長視訊推薦所面臨的情況很像,因為以前的雙十一大促就是10號開始,11月11日結束,後來開始從10月底起分三段進行,前後持續近一個月的時間,這帶來的問題九四每個階段的優化目標都不同,例如在造勢期更多傾向於產生點選量和曝光,主要用以營造影響力,因為這個時候很多商家的報名還沒有結束;第二個階段(預熱期)中,我們引導的其實是加購,一般會有上百萬的尖貨池,類似於優衣庫這樣的超級尖貨,往往不需要我們做刻意推廣,有些使用者都會直接把店鋪裡所有參加活動的衣服全部瀏覽一遍,但面對上百萬的尖貨池,我們還是希望能夠通過搜尋和推薦的技術將更多商品呈現給使用者,產生更多的加購,所以加購率是這個階段的一個重點;最後在大促當天則是以成交優先,主要以GMV為第一排序指標。所以這個時候你會發現,在這幾個階段中,最開始是以延時回報為最大目標,後來則以即時回報為最大目標,這是在整個排序和召回中極為複雜的一項挑戰。大促當天的流量高峰基本上就是圍繞在0點前後,過去大約是十分鐘的時長,現在的戰線則拉長了很多,去年雙十一的最高峰就持續了將近50分鐘,現在0點集中的大多是付預售尾款的使用者,而很多大家去搶的時段會呈現出分散的狀態。此外,當天的搜尋排序就需要考慮到使用者可能搶不到且關注度較高尖貨的可替代貨品,甚至是可替代性品牌,當用戶所關注的那些品牌都已經售謦時,要能夠及時安排替換。再到晚上八九點的時候,馬爸爸還會為大家發返場紅包,這時搜尋與推薦的策略就是選擇貨單價並不是太高,且能夠把紅包用上的商品。而且對於不同的東西,每個人的價格彈性也不同,因此此時推薦的商品品類在與使用者興趣相關之餘,要注意並非強興趣相關,核心是價格彈性和紅包能夠帶得動的GMV。因此在大促當日的最後時段,整個GMV全靠搜尋在衝,這是典型的業務演算法策略與實際技術演算法進行更深度結合的案例。

CSDN:如何利用遷移學習解決了手淘詳情頁“看了又看”的技術侷限?

永叔: 詳情頁的“看了又看”可以說是淘寶推薦中最古老的場景了,目前的確面臨諸多瓶頸,其中的一大困境在於,此前我們將詳情頁歸入商傢俬域,交由商家自己控制,其中有兩個約束,一是同店,二是類似商品,但對於部分商家而言,其侯選集會非常小,從而面臨無貨可推的問題。為此,我們推出了一個模組叫做“鄰家好店”,也就是說可以形成一個商家聯盟,比如某個商家是賣數碼3C的,其與服飾商家沒有競爭,就可以按照自主意願形成的聯盟,從而我們的推薦商品的候選空間就會擴大,這一模組的核心是提升每一個UserView的價值。此外,遷移學習在這方面也有其發揮的餘地,我們可以將使用者在服飾領域的行為遷移應用到數碼3C中去,包括使用者的分享、購物衝動等特徵和偏好都可以進行遷移。

CSDN:請您談談機器學習在優酷短視訊搜尋場景下的技術探索。

永叔: 短視訊搜尋場景下的一大挑戰就是能夠獲取的Meta結構化資訊非常少,所以對於短視訊本身的理解,我們直接將其轉化成一個打標的任務,也就是短視訊的標籤化。而標籤化的難點包括:

① 標籤維度和標註資料的量級巨大。短視訊推薦的存量很多,且每天都有很多新增視訊,因此可能會有上百萬個標籤,其中,一些頭部標籤(如“搞笑”)因為覆蓋的視訊很多可以學得很準,但很多長尾標籤因為關聯視訊極少,往往面臨缺少資料的問題。對於這類小樣本標籤,就需要用到機器學習的Feature Learning來解決小樣本和領域知識相結合的問題,

② 排序學習。Learning To Rank(排序學習)在短視訊的資訊流推薦中是一個非常新的問題。大約10年前,MSRA的劉鐵巖博士開創了Learning To Rank這個研究方向。過去我們基於的一個假設前提是我們資訊流(feeds)展示出來的時候,使用者一眼就全都看到了,但是這對目前的手機端而言並不適用,因為一個手機螢幕通常只顯示五個到六個視訊,甚至整個短視訊的資訊流卻是無限的(幾百到上千)。在這樣的情況下,排序學習就不再是假設全都看到,而是需要實時互動。我們從過去的點選率目標轉變成了點選數目標,從效率指標變成了規模指標,點選數的多少取決於曝光點選率和曝光量,也就是使用者持續往下滑動的長度,我們正在由單一目標優化向多目標優化轉變。對於這一問題,目前一種比較常用的思路就是利用強化學習來處理,就是當用戶滑動到一個視訊卡片時,可以處於多種狀態,包括疲勞了→不想看了→離開,也可以有興趣→點進去→觀看不同的動作,都會產生相應的action,例如下滑、點選、結束Feed流瀏覽,或是長按不喜歡、點贊,點踩等。結合這些action,我們可以通過強化學習的方式完成當前的reward function設計,這是一個與使用者實時互動的過程,一切新的行為都會為後續的實時推薦形成一個非常強的正訊號反饋。這在推薦的資訊流中被稱作互動式推薦,就是能夠讓使用者與系統互動,這也是長資訊流推薦對於排序資訊引入的一個新問題,簡訊息流已經成為過去,如今有互動的長資訊流與強化學習相結合,帶來了新的Topic,現在很多手機APP的首頁都已經改成長資訊流了。關於這類問題,學術界無法解決,因為其不具備實驗環境,所以該問題歸根到底必須依靠企業實踐來完成。

CSDN:對於機器學習演算法相關就業飽和問題,您怎麼看?人工智慧的發展前景?

永叔: 近年來,計算機行業中的各個工種都在面臨這樣的問題。事實上,Top級的人才永遠不會飽和,而現在趨於飽和的往往是工業化生產的AI人才。現在一些高校從本科起就在做人工智慧學院,例如由周志華老師擔任院長的南京大學AI人工智慧學院,他們的培養模式是每週都有一天讓學生到南京當地的研發中心實踐,採用純粹面向應用的培養體系。目前AI領域飽和的就是隻會調包調參的工程師,未來趨勢也只會愈加飽和。那麼什麼樣的人競爭力會越來越強?主要有兩類:

第一類是專業化人才,他們能夠應對人工智慧機器學習領域中重大的基礎研究問題,能夠解決企業小樣本資料和領域知識如何結合的問題,這類人才極為稀缺,因為這個問題它本身在學術界也極具挑戰。企業面臨的另外一個重點難題是規模問題,比如需要處理50萬視訊,如果是單張GPU卡,則需要720個小時,如何能夠通過軟硬體結合的方式,縮減每個視訊自動稽核的平均時間,那麼無論是在能源節省還是本身的可處理性上,都是一個巨大的飛躍。

第二類稀缺人才是與業務相結合的資深演算法工程師,這一類則與經驗密切相關,比如說其具備將業務問題轉變成領域技術問題的能力,這是個翻譯建模的過程。這項能力不僅要對技術有深厚的理解,也要對業務有很強的把控,同時又能夠通過架橋的能力將業務問題發現並定義出來,繼而建模成技術問題加以解決。這一系列能力如果沒有五年以上一線摸爬滾打的經驗是完全不可能掌握的,而且過程中必然耗費了大量的成本,因為這些寶貴經驗的獲取,首先必然需要企業方面給予足夠的授權和授信,無疑是“拿錢堆出來的”實踐經驗,有點類似於飛行員的培養。

採訪最後,永叔特別指出了一個當下比較突出的問題,即企業Leader們對於演算法能夠做什麼應用存在一些誤解,他們往往認為演算法是個黑盒子,或是機器貓的袋子,什麼東西講不清楚都讓演算法去算一下,這個問題現在是比較突出的,很多人就是,沒有去開啟演算法的這個黑盒子。事實上,目前我們對於資料比較充分的領域,演算法的發揮空間的確比較大,但對於連標註資料都很模糊的地方,即使把演算法丟進去能去解決的問題也比較少,演算法使用在團隊中存在很大的偏差,所以演算法如果用得好就會是一把利器,用不好就將耗費巨大的成本,還沒有收益。因此企業Leader需要提升自己的知識結構和體系修養,瞭解這個與業務緊密結合的專業工種,清楚演算法可以應用到什麼地方、什麼環境。