移動網際網路+智慧運營體系搭建=你家有金礦啊!
摘要: 每個企業都有許多的資料,但能否將資料轉化成商業價值,是企業非常關心的問題。阿里巴巴曾自嘲是一家坐在資料的金礦上啃著饅頭的企業,前幾年集團積累了很多的資料,但這些資料並沒有真正應用起來,受限於幾個原因,比如大資料的技術框架還不成熟,運營團隊對資料應用的意識還不是很強,但今天,資料在阿里巴巴的應用範圍已經越來越廣泛。
每個企業都有許多的資料,但能否將資料轉化成商業價值,是企業非常關心的問題。阿里巴巴曾自嘲是一家坐在資料的金礦上啃著饅頭的企業,前幾年集團積累了很多的資料,但這些資料並沒有真正應用起來,受限於幾個原因,比如大資料的技術框架還不成熟,運營團隊對資料應用的意識還不是很強,但今天,資料在阿里巴巴的應用範圍已經越來越廣泛。
本文根據2018年雲棲大會杭州站移動研發平臺EMAS專場上,阿里巴巴資深技術專家元綽的演講整理成文,介紹面向移動網際網路時代的智慧運營體系搭建,主要分成三塊內容:第一,智慧運營的使命和典型應用場景;第二,個性化推薦系統的架構;第三,AB在智慧運營系統中的應用。
一、智慧運營的使命和典型應用場景
衡量一個智慧運營系統做得好不好,目標非常明確,就是看能不能幫企業實現資料的增長,因為增長是企業最核心的訴求。
要實現企業智慧運營,首先要進行資料運營閉環的建設。傳統的BI,收集資料,給老闆產出報表,讓老闆做決策,但智慧運營系統,最重要的是把資料應用到實際業務場景中,形成資料閉環。收集資料,通過模型的訓練轉換成系統的預測能力,運用到實際業務場景中,最後把使用者的使用資料反饋給我們的系統。經過幾輪迭代,整個系統的預測能力會越來越強。
企業希望提升業務結果,業務結果的提升依賴於平臺上的使用者對我們的認可。EMAS的業務統計模組可以承擔資料採集的工作,瞭解了使用者的行為,機器智慧的作用就在於將使用者的行為資料轉換為企業的運營行動。
具體的流程可以分成這麼幾個部分:首先基於原始資料,以新客為例,根據使用者對冷啟動階段的熱門資料的點選情況,對使用者進行第一次打標,我們大體識別該使用者屬於什麼樣的型別;其次,我們做嘗試性推送,比如資訊或者產品,使用者根據我所推送的資訊或者產品,會有相應的點選行為,經過幾次互動,機器對該使用者的理解會加深。最後,經過使用者跟平臺的多次互動後,企業配合相應的運營策略,比如促銷,轉化效果就會有比較明顯的提升,這是智慧運營系統的基本流程。
我們對使用者的全生命週期理解,是從新客到老客以及老客幫你做傳播這一整個階段,時間週期還是比較長的。針對一個新使用者,你直接把希望他下單的資訊推送給他,效果往往不會特別好。所以必須要對使用者整個生命階段做一些細緻的分析。
智慧運營的三個典型的應用場景:
第一,千人千面。淘系在PC時代也做過推薦相關的工作,但效果不好。但到了無線時代之後,個性化推薦的效果就提升明顯,源於使用者行為發生了很大的變化。無目的性,碎片化,隨時隨地。我們能否將使用者給我們的碎花片時間充分利用好,讓我們的消費者一下子對我們的產品感興趣,需要企業對使用者要有非常深的理解和洞察。
第二,精準營銷。營銷活動前,分析所面向的人群,具體的定價策略,以及在這樣的定價策略下的銷量預測,這樣企業就可以預先知道KPI的完成情況。
第三,智慧選品。前面講的更多的是,產品如何更多與使用者進行互動,智慧選品適用的場景是我們對目標客群有認知,希望觸達我們原來沒有觸達到的那批使用者。超市希望吸引年輕人,就需要調整貨品結構,把年輕使用者吸引回來。盒馬、淘寶心選,是阿里做的比較好的案例。
二、個性化推薦系統架構
接下來,給大家介紹一下個性化推薦系統。個性化推薦在阿里巴巴集團這幾年有很多的沉澱。以手機淘寶首頁為例,很多地方都做了個性化,比如入口圖,每個APP都有子頻道,子頻道的入口圖大部分用的是設計師做的靜態圖,如果用子頻道的資料跟使用者做個性化匹配,做千人千面的入口圖,入口點選的轉化會有很大的提升。
好的個性化推薦需要有哪些注意點:
第一,工程實現。個性化推薦,傳統的實現方法,是截止某一個時間點給使用者計算一個推薦列表,每天把這個資料重新整理一遍。這樣做的問題是什麼?使用者的資料量一直在增長,相應的儲存成本也會隨之增長,企業投入成本會很大。所以系統設計的時候需要考慮藉助標籤的能力。另外,每個人對標籤對應的貨品排序應該不一樣,我們要增加二次排序,要保證每一個人的推薦列表雖然貨品一樣,但是順序有差異。
第二,實時推薦。離線推薦主要是基於歷史資料,實時推薦是基於當天的資料,當天給使用者做推薦,轉化率往往最高。但是對我們的挑戰是什麼?第一,必須有實時計算的能力,因為使用者給我們的時間非常少,如果你延遲五分鐘,基本上使用者就流失了。第二,從演算法角度來講,必須要做一個平衡,你是基於歷史推薦資料,還是當天的實時資料,到底哪個轉換率最高,要做一個平衡。
第三,時間和空間。拿電商來說,羽絨服或者衣服都有季節屬性,羽絨服適合冬天穿,電子產品有新老款,判斷一個使用者從來都只買新款,你就應該把新款推薦給他。另外,推送有時間衰減效應,不能一直推相同的貨品。時間和空間是必須考慮的兩個維度。
第四,發現性。大家在做個性化推薦的時候,模型基本上都是以一個具體的目標來做優化,但這裡會有一個什麼問題呢?會產生很嚴重的馬太效應:第一,我的推薦依賴於我的歷史資料。為什麼給你推衣服?是因為你老是看衣服,模型判斷推衣服的轉化肯定是最高的,我推薦了,然後你又點了,這樣又產生了一條歷史資料,我發現效果確實很好,那模型下次推什麼?肯定還是給你推衣服。但實際上每個人的興趣愛好很廣泛,我給你推的品類越來越窄,最後發現你的行為也越來越窄,這跟人的實際特徵是不匹配。我們要在推薦系統裡擴充套件品類的寬度。第二,推什麼樣的產品轉化率最高?肯定是爆款,不管是金融行業還是其他的行業,爆款轉化率最高,模型判斷推爆款的轉化比一般產品的轉化要更高,導致什麼結果?系統推薦的產品範圍也越來越窄,這是很嚴重的問題。就是說給使用者推薦的品類越來越窄,產品範圍越來越窄。所以在整個模型過程中,去嘗試推薦一些他可能原來歷史記錄裡面不存在的東西,去做一些嘗試性的發現,這是非常有意義的,否則對短期收益有好處,但是對長期收益有影響。所以轉化率很重要,但是發現性更重要,品類拓寬會讓你的業務體量越來越大,產品也一樣,爆款之後肯定有新品,新品也需要變成爆款。
第五,髒資料。髒資料一般分兩類,第一類是無效資料,比如說“雙十一”,因為當天他們的行為非常特殊。“雙十一”當天買了你平時可能不會買的東西。這樣的資料對日常推薦並沒有太大的幫助,這些資料必須要剔掉。第二類資料是作弊資料。像刷信用、刷積分的資料量往往很大,這樣的資料如果不剔除掉,最終預測的結果和你原來的真實值之間的偏差會非常大。
最後介紹一下阿里巴巴實時推薦的系統架構,大概會分成這麼幾個部分,有EMAS資料統計模組,採集資料,拿到資料之後要對資料進行加工和訓練,形成模型後把資料應用到生產環境。生產環境,一般來說是儲存到圖資料庫,因為它是網狀結構,最後是一個非常簡單的API,可以簡單呼叫資料。系統中有一塊很重要,就是在模型訓練過程中必須要具備支援行業經驗的輸入,因為我們在實踐過程中發現,今天通用的模型去疊加一些行業規則,它的效果是非常好的,因為每個行業有每個行業的特殊性,今天一套通用演算法想應用到所有行業是不現實的。這是我們個性化推薦系統的簡單系統架構圖,它一定要是一個閉環,資料一定要轉起來,因為資料不轉起來我們就不知道我推薦的結果是否準確、對使用者的洞察是否準確,我們要必須保證資料執行一段時間後,資料是整體往上漲的。
三、AB在智慧運營中的應用
最後給大家講一下AB測試在智慧運營中的應用。大家也知道今天演算法的發展非常快,像前幾年深度學習很火,這幾年強化學習,一些新的演算法發展很快,我們在模型迭代過程中需要應用新的演算法。但一般來講,我們不一定能確認哪個演算法的效果更好,我今天線上下做非常多的評測,但最後還是要到生產環境去做實驗。我們可以做分桶測試,基準桶和測試桶,測試桶我們用一個模型,基準桶用另一個模型,比較兩個模型的效果。實際在應用過程中,我們在做AB測試前,必須要做AA測試,保證在實驗之前兩個桶的資料是一模一樣的,這個時候你再把一個桶的模型換掉,資料是可信的。