1. 程式人生 > >用SPSS Modeler-對電商的重購買家特徵挖掘

用SPSS Modeler-對電商的重購買家特徵挖掘

寫在開頭的話,這是筆者在上資料探勘課的時候分析的書中的案例,格式是按照小論文的寫法寫的,所以章節分的很詳細。

通過實驗瞭解淘寶(電商)的業務運營模式、運營資料特徵。通過此次試驗,理解資料分析的思路、過程;掌握RFM模型、營銷中“最佳聯絡人”和“重購買家的特徵”的分析方法;掌握SPSS  Statisitcs和SPSS Modeler的應用。本實驗通過對淘寶護膚品及彩妝類賣家張三的顧客表和交易表進行分析,基於SPSS Modeler軟體,對重購買家的特徵進行深入的分析,挖掘單次購買與重複購買兩類客戶的特徵,以此為新增客戶的重複購買預測提供依據並及時制定對自己有利的營銷方案。通過本次實驗所做的分析,結合客戶營銷的五大原則,給案例中的淘寶店主張三提供一些有用的建議。

第1章 引言
1.1 資料分析的背景
    張三,護膚品及彩妝類賣家,幾經打拼,信用積累到皇冠,但也累得半死,每日深陷護膚品行業的紅海鏖戰之中。感覺現在淘寶上的競爭越來越激烈,爆款可以帶來銷量,卻帶不來多少利潤。促銷、聚划算之類的活動做來做去,最後卻發現錢都被開平臺的馬老闆給掙走了。
    焦慮中的張三迫切想得到自家店鋪和在本店鋪無重購行為的買家相比,在店鋪中有重購行為的買傢俱有怎樣的特徵?
    在店鋪中存在重購行為的買傢俱有怎樣的特徵?這一個分析需求如果從統計建模的角度來講,則基本類似於對重購行為進行預測建模,並從中尋找重購行為的影響因素。
    購買店鋪中產品的買家大致可以分為哪些型別?從營銷的角度看,實際就是一個市場細分問題,而解決市場細分的方法中比較常用的是聚類分析。
    客戶營銷有五大法則:
    (一)二八法則:20%的客戶創造了80%的銷售額或利潤;20%的商品產生了80%的銷售額。
    (二)RFM模型:細分客戶很重要。
    (三)“四四二”法則:40%的成功取決於營銷物件;40%取決於報價或產品;20%取決於營銷創意。
    (四)AIDA模式:AIDA代表引起注意(Attention)、激發興趣(Interest)、刺激購買慾(Desire)和促成購買(Action)。
    (五)降價促銷與打折促銷:傳統的直銷盈利方式,直接的降價促銷方式比打折的促銷方式能引起更大的網路營銷市場反應,並帶來更多的經濟收益。
在第一部分的實驗中,通過RFM分析,幫張三找到了如果下次做促銷活動,優先考慮的會員名單。
    經過RFM的中間步分析和張三的觀察,張三發現重購的使用者其購買金額遠遠大於一次購買客戶的購買金額,於是張三想弄清楚重購的客戶都有哪些特徵,從而在接下來的客服工作中可以對具有這些重購特徵的客戶進行重點服務。這既是本次實驗接續上一段實驗的資料分析背景。
1.2分析的目的與意義
    通過實驗,要獲得這樣的資訊:買家要優先考慮對哪些會員進行促銷?――這是一個標準的從歷史客戶群中定位可能“最有價值”的客戶的分析需求,在營銷方面有很多模型或者方法可以實現,但是在擁有明確的歷史交易資料表的情況下,最簡單易懂而且實用的方法非RFM模型莫屬。在本店存在重購行為的買傢俱有怎樣的特徵?這一個分析需求如果從統計建模的角度來講,則基本類似於對重購行為進行預測建模,並從中尋找重購行為的影響因素。購買本店鋪產品的買家大致可以分為哪些型別?從營銷的角度看,實際就是一個市場細分問題,而解決市場細分的方法中比較常用的是聚類分析。
本次實驗的目的就是用資料探勘的分析方法,幫助張三解決這個問題。
第2章資料稽核與資料預處理
2.1 原始資料表說明
    本次實驗中一共用到兩個資料檔案,分別是交易表和買家表。在SPSSmodeler裡面的源選項裡面,新增兩個statistics檔案,分別賦予兩個檔案兩個表的路徑,並用表的形式輸出資料來源以供檢視。如下面幾張圖片所示,並且,用本人學號後5位20414作為字首。

圖2-1兩個資料來源

圖2-2交易表的內容

圖2-3買家表的內容

在上面的兩張圖中可以看到,在交易表中,共有7個欄位,17517條記錄。7個欄位分別是basket_id, buyer_id, goods_id,  pur_time,price, shipcost, cases,點選顯示欄位和值標籤按鈕後可以看到,這7個欄位分別代表著買單號、買家ID、商品ID、購買時間、總價、運費、商品數這七個含義。而在買家表中,共有6個欄位,14635條記錄。6個欄位分別是buyer_id, buy_gender, buy_age, buy_prov, buy_city, buy_cred, 點選顯示欄位和值標籤按鈕後可以看到,這6個欄位分別代表著買家ID、買家性別、買家年齡、買家省份、買家城市、買家信用這七個不同的含義。
        這兩個表中,有一個共同的欄位——buyer_ID,即買家ID。
2.2 資料分佈與資料稽核
    對兩個表輸出資料稽核,可以很直觀的看到資料稽核的結果。如圖2-4和2-5所示。


圖2-4交易表的資料稽核

圖2-5買家表的資料稽核

從上面的兩張圖中可以看到,交易表的資料稽核顯示出最早的一次購買時間為2011-03-01,最後一次購買時間為2011-05-31。商品價格最低為3,最高為3933,平均值142.930,標準差129.815,偏度5.047。運費最低為0,最高為10.602,平均0.153,標準差0.966,偏度7.804。一次購買數量最少1件,最多30件。而且7個欄位的17517條記錄都是有效記錄。
    從買家表的資料稽核結果中可以看到,買家性別有16%的1號代表的性別和44%的2號代表的性別,但是有40%的買家並沒有提供自己的性別。買家的年齡最小的為11歲,最大的為79歲,平均年齡28歲。買家的省份共有50個。買家信用有14個級別。但是,在買家表中,並不是每個欄位都有14635個有效記錄,可以說,除了買家ID以外,剩下的6個欄位都各自有不同程度的資料缺失。
    接下來,對資料分佈進行觀察。在實驗報告中,僅對部分欄位的資料分佈進行展示。如圖2-6、2-7、2-8、2-9所示。

圖2-6一次購買商品數cases的資料分佈

    在這個資料分佈中可以看到,一次購買一件商品的比例達到95.93%,一次購買兩件商品的比例為3.31%。

圖2-7買家表中性別的資料分佈

    在這個資料分佈中可以看到,1代表的性別佔比16.2%,2代表的性別佔比44.33%,沒有性別資訊的佔比39.47%。

圖2-8買家表買家省份的資料分佈

圖2-9買家表中買家信用資料分佈

2.3 資料預處理
    在對買家表的資料稽核進行觀察時發現存在三個問題,(1)存在缺失資料和噪聲資料。(2)“買家信用”目前的編碼為字串,無法表達出有序型別變數,因此需要進行變數值的重新編碼。(3)“省份”變數值差距懸殊,低頻省份可合併為其它。因此需要對買家表進行資料預處理,以便於進行下一步的工作。在圖2-10中能看出買家年齡的離群值和極值,並可對它們進行處理,減少它們對資料分析的負面影響。

圖2-10買家表中年齡欄位的資料噪聲

對於離群值,可以採取一些措施,減少它對資料分析的影響。比如可以直接丟棄。如圖2-11所示。

圖2-11丟棄離群值

對交易表做排序和彙總操作。如圖2-12、2-13所示。

圖2-12對交易表按照buyer_id進行排序操作及輸出表

圖2-13對交易表中每個buyer_id彙總購買金額
接下來,對“買家信用”作型別變換操作,作此處理的原因是買家信用在原始資料中是字元型資料,並不是可以直接用來做資料分析的數字。所以要把它們轉換成具體的數字代表。
    在買家表字段選項裡面選擇型別,讀取值,未能讀取的值在流屬性裡面取消“名義欄位的最大成員數”的勾選就可以讀取了。如圖2-14所示。

圖2-14買家表型別讀取值
然後,根據賣家信用的資訊,建立新的欄位buy_cred2,並輸入新值。在輸入新值時,1-5星使用者信用分別用1.1-1.5代替,1-5鑽使用者信用分別用2.1-2.5代替,1-5皇冠使用者信用分別用3.1-3.5代替,無信用的,0信用的,信用等級<=3的全部用0來代替。在做此操作之後,就可以得到變換後的使用者信用欄位。分別如圖2-15和2-16所示。

圖2-15建立新的欄位並輸入新值

圖2-16變化後的使用者信用等級。

接下來,要解決“省份”變數值差距懸殊這個問題。通過操作,將省份統計<=30的合併為“其他地區”並將0、缺失及未知的,統一為“未知”。要進行這個操作,首先,要對省份這個欄位進行排序-彙總-排序的操作,等到需要進行處理的省份的名字。如圖2-17所示。

圖2-17找出低頻省份
在找出低頻省份之後,就要把低頻省份合併到一起,合併為其他地區。並將0,缺失,未知的合併為未知。在欄位選項裡面選擇重新分類並命名為低頻省份分類,在裡面讀取buy_prov欄位重新分類為buy_prov2欄位。如圖2-18所示。輸出結果如圖2-19所示。圖2-20是合併低頻省份後的資料稽核。

圖2-18重新分類時給buy_prov2賦新值

圖2-19合併低頻省份後的結果

圖2-20合併低頻省份後的資料稽核

在上述的資料預處理步驟都完成之後,因為本次試驗是要根據交易表和買家表兩張表共同進行分析,所以就有必要把兩張表合併到一起成為一張表,後續的資料分析將在這一張合併後的表格上進行。將交易表和買家表進行合併操作,合併時選擇關鍵詞合併,使用兩張表共同的欄位buyer_id進行合併,並在合併時過濾掉3個已經沒有意義的欄位,分別是buy_prov、buy_city、buy_cred這三個欄位。合併完成後,輸出一個表格進行結果顯示。這四步操作,分別如圖2-21、2-22所示。

圖2-21合併兩張表

圖2-22合併後的新表格

至此,本次試驗的資料預處理已經完成。

第3章 資料分析
3.1 總體思路
    首先,考慮到是要對重購使用者的特徵進行挖掘,就要先把重購使用者分類出來。然後分別使用兩個模型進行分析。之所以考慮用兩個模型分別進行分析,是為了對比兩個模型的預測結果,另一方面也可以側面觀察預測結果是不是可靠。
(一)使用C5.0模型對各個屬性對重購次數的重要性進行分析。
    (二)使用自動分類器對各個屬性對重購次數的重要性進行分析。
3.2 基於Spss Modeler的資料分析過程
3.2.1 重構使用者分類
    為了找到重購使用者的特徵,就要把重構使用者與只購買過一次的使用者分開,所以就要分類。首先是把購買次數字段的型別調整成名義型。因為作為目標變數,不能是連續型,只能調整為名義型的資料,如圖3-1所示,分別是調整過程和調整過後的結果。

圖3-1調整購買次數為名義型
    購買次數調整為名義以後,在欄位選項裡面選擇重新分類結點,在設定時,重新分類為現有欄位,除了購買次數為1的新值仍然為1以外,其餘所有的值新值改為2。調整的過程和結果如圖3-2所示。

圖3-2重新分類購買次數
3.2.2 使用C5.0模型預測變數重要性
在建模裡面選擇C5.0結點,對前面輸出過來的資料進行分析,得出各個屬性對購買次數的影響的重要性,如圖3-3所示。執行過後出來的結果如圖3-4所示。再之後選擇輸出分析節點,如圖3-5所示。

3-3C5.0模型目標和輸入欄位

3-4C5.0模型的結果

3-5C5.0模型的結果分析

3.2.3 使用自動分類器
    在建模裡面選擇自動分類器,用來預測其他屬性對重購次數的重要性,如圖3-6所示。輸出的模型結果如圖3-7和圖3-8所示,分別代表模型的兩種不同顯示方式。

圖3-6自動分類器

圖3-7自動分類器的模型結果

圖3-8自動分類器的模型結果之圖形形式

圖3-9自動分類器的結果分析

在自動分類器的結果之後,還可以試探性的分析各個屬性之間的關係,這次選用年齡和消費水平之間的關係,用多重散點圖來表示,如圖3-10所示。

圖3-10年齡與消費水平的多重散點圖
3.3 Spss Modeler中的完整資料流
    至此,本次試驗的所有流已經完成了,下面本次試驗的完整資料流,如圖3-11所示。

圖3-11完整資料流

第4章 結論及建議
4.1 資料分析的結果
    通過C5.0模型的決策樹對重構使用者進行分析,從分析結果中可以看到分類正確的有12599個,佔比86.09%,正確率比較高。
而通過自動分類器進行分析,正確的有12548個,正確率85.74%,與前一個模型的正確率相差無幾。

圖4-1C5.0模型和自動分類器的結果分析

4.2 通過分析得到的結論
    買家年齡和平均消費金額對是否重購有很大的影響,可以根據平均消費來預測哪些使用者會成為重構使用者。對於可能重購的使用者,平均消費金額是最重要的預測依據,根據平均消費金額來預測某個客戶是否是重購客戶是非常有效的。消費金額在(143-1005)、(1088-3320)範圍內的客戶,是重購客戶的可能性非常大。
4.3 對商家的建議
商家張三應該對預測出的可能會重購的使用者推送一些廣告和優惠活動,以便增加他們重構的可能性。另外,從年齡和消費水平的散點圖中可以看出20-40歲這個年齡段的客戶消費金額在我們預測出的可能重購客戶的範圍內,所以建議店家可以針對這個年齡段內的客戶再給於更多的優惠,也可以給他們投放更多的廣告。