深度構建使用者畫像|資料標籤,關聯分析,RFM,使用者體系
無論是提供商品還是服務,使用者畫像都是資料探勘工作的重要一環。一個準確和完整的使用者畫像甚至可以說是許多網際網路公司賴以生存的寶貴財富。我們也已經聽過了無數使用者畫像的神奇功能和成功案例,比如亞馬遜,淘寶的機器學習團隊使用使用者的瀏覽行為,購物車狀態和購買記錄開發關聯推薦系統,使點選率和銷量大幅提升;比如應用市場根據過往APP安裝記錄記對每個使用者進行精準推薦;再比如音樂,圖書和新聞網站通過協同過濾的方式為使用者呈現個性化的定製內容。
對於消費品公司而言,雖說使用者行為資料的豐富程度和網際網路產品相比稍顯遜色,但也擁有龐大的使用者資訊和交易資料沉澱散落在各個IT系統中,而且更真實,噪音更少。只不過在傳統消費品公司裡會程式設計,會處理資料的人要比網際網路公司少太多太多。在我們深入瞭解了這些使用者資訊和交易資料,並對它們進行了清洗,彙總,打通之後,發現數據質量要比我們想象的好很多,可以支撐許多有意思的使用者畫像的建立。在這裡我會分享一些畫像的流程和思路,供大家參考。
1、資料標籤化
使用者畫像的底層是機器學習,那麼無論是要做客戶分群還是精準營銷,都先要將使用者資料進行規整處理,轉化為相同維度的特徵向量,諸多華麗的演算法才可以有用武之地,像是聚類,迴歸,關聯,各種分類器等等。對於結構化資料而言,特徵提取工作往往都是從給資料打標籤開始的,比如購買渠道,消費頻率,年齡性別,家庭狀況等等。好的特徵標籤的選擇可以使對使用者刻畫變得更豐富,也能提升機器學習演算法的效果(準確度,收斂速度等)。
我們在專案中根據不同維度提取了數十個多個標籤,圖7展示了其中的一部分。這些標籤主要有三個來源:
第一類是在IT系統中可以取得的資訊,比如辦會員卡時留下的資訊(性別,年齡,生日),購買渠道,積分情況等;
第二類是可以通過計算或是統計所獲得的,比如使用者對某類促銷活動的參與程度,對某種顏色/款式商品的偏好程度,是否進行過跨品牌的購買等;
第三類則是通過推測所得,比如送貨地址中出現“宿舍”,“學校”,“大學”等字樣,則使用者身份可以推測為學生,出現“騰訊大廈”,“科技園”等資訊時,則可判斷是上班族,並有很大概率是技術從業者。
在標籤的設計上也帶有較強的行業性,比如是否偏好購買當季爆款或是新品多於經典款(時尚度);是否更傾向購買低價或打折商品(價格敏感度);是否喜歡購買高價商品或限量版(反向價格敏感度)。
對於已經打好的標籤,根據不同的分析場景進行離散化,或將分類型別的標籤拆成多個0/1標籤,就可以進行一些機器學習的建模了,比如聚類,分類,預測,或者關聯性分析,最終生成的向量維度在數千個。
2、關聯性分析
關聯性分析(Association rule learning)是在零售行業中應用最廣泛的一種機器學習方法,營銷學裡經典的“啤酒/尿布”(超市裡購買尿布的消費者往往同時購買啤酒)案例也已經是家喻戶曉。雖然後來被證實這是一個為了教學目的而虛構出來的案例,但從其上鏡率也可以看得出關聯性分析在零售領域的重要程度,或許這個例子在國內改成“泡麵/火腿腸”會更親切。
關聯性分析的相關文章有非常多,支援度(Support),置信度(Confidence)和增益(Lift)這些基本概念的介紹在這裡就不贅述了,各位如果有興趣可以參見Wikipedia的 Association rule learning 頁面。
和購物籃關聯規則不同,我們資料探勘過程中的基本單位是使用者,而特徵向量則是基於提取出的使用者標籤而構建的,下表是一個簡單的示例。
第一個例子
我們獲得了一個NxM的特徵矩陣,N為使用者數,量級在百萬級,M為特徵維度,約數千個的二元標籤。基於這個特徵矩陣我們使用了最基礎的Apriori演算法計算相關度,並在支援度,置信度和增益三個層面設定threshold,輸出符合要求的關聯規則。
由於輸出的關聯規則可能涉及到客戶隱私,在這裡僅做一個示例。下表中的前項(antecedent)為使用者的所在地,後項(consequent)為最高的活動敏感度, 結果如下:
可見上以及江浙地區對於促銷活動的敏感度和參與度是最高的,增益均高於兩倍,而上海則是達到了3.3倍之多。
第二個例子
另一個例子是顏色的關聯規則,下表展示了使用者對於不同顏色的產品以及SKU之間的偏好特徵,可見某些使用者是有較強的顏色偏向的,比如金色和銀色之間,咖啡色和綠色之間等等。如果運用到商業實踐,因為在買過紫色和杏色的使用者中,接下來會比較會買金色;把這些資料給到地面團隊或者線上團隊,這時候推薦顏色以及配貨就比較輕鬆一些。
值得注意的是,做關聯分析時要確保前後項以及的獨立性(independence)。由於在提取特徵時有些維度本身就是從相同或相關的欄位提取出來的,比如使用者的星座以及出生月份,如果不做控制的話就會得出“11月出生的天蠍座特別多”這樣讓人啼笑皆非的規則。
3、RFM Model
RFM模型是使用者價值研究中的經典模型,基於近度(Recency),頻度(Frequency)和額度(Monetory)這3個指標對使用者進行聚類, 找出具有潛在價值的使用者, 從而輔助商業決策,提高營銷效率。如果對RFM模型的細節感興趣可以參見Wikipedia中有關 RFM模型的頁面。
RFM建模所需要的資料來源是相對簡單的,只用到了購買記錄中的時間和金額這兩個欄位。我們基於交易資料中使用者的最後一次的購買時間,購買的次數以和頻率,以及平均/總消費額對每個使用者計算了三個維度的標準分。然後我們對於三個維度賦予了不同的權重,再基於加權後的分值應用K-Means進行聚類,根據每種人群三個維度與平均值之間的高低關係,確定哪些是需要保持使用者,哪些是需要挽留的使用者,哪些是需要發展的使用者等。
在將這些客戶圈出之後,便可以對不同客戶群使用不同針對性地營銷策略(引導,喚醒等),提高復購率與轉化率。值得注意的是,三個維度的權重製定並沒有統一的標準,比較通用的方法是用層次分析法(AHP),再結合行業以及具體公司的特點進行優化。
圖8是通過RFM模型進行使用者聚類後的結果,可以清楚看到幾個人群使用者的數量以及比例。同時這些分群也會作為標籤重新輸入至使用者畫像以及CRM當中,作為圈定特定使用者群以及營銷的入口。
圖9展示了使用者群之間在各個維度上的分佈。消費,金額,頻率這些模型直接相關的標籤上自然有非常顯著的差異,同時在一些垂直(orthogonal)的特徵維度上也有很大的不同。
4、使用者體系
最後,對消費品公司而言,所有在資料探勘和使用者畫像方面的投入,根本目的還是要提升業務表現,所以如何將資料探勘的結果進行落地就變成了尤為關鍵的一環。對於使用者畫像所輸出的所有標籤和關聯規則,都需要通過某種渠道抵達使用者群。
這種渠道可以是一個強大的CRM系統,可以通過不同的標籤圈定使用者群,定向釋出營銷方案;也可以是一個會員客戶端,推送個性化的打折券或新品推薦;甚至是自營電商,實現像天貓京東一樣的資料自生產和自消費的迴圈。