1. 程式人生 > >Python-天池新人賽天貓優惠券O2O預測數學建模賽

Python-天池新人賽天貓優惠券O2O預測數學建模賽

O2O(Online to Offline)消費是指將線下的商務機會與網際網路結合,讓網際網路成為線下交易的平臺。以優惠券盤活老使用者或吸引新客戶進店消費是O2O的一種重要營銷方式。通過個性化投放優惠券,提高優惠券的核銷率;通過分析建模,精準預測使用者是否會在規定時間內使用相應優惠券。

資料集給出了使用者在2016年1月1日至2016年6月30日之間真實線上、線下消費行為。需要通過建模來預測使用者在2016年7月領取優惠券後15天以內的使用情況。模型的評價標準為:優惠券核銷預測的平均AUC(ROC曲線下面積),即對每個優惠券coupon_id單獨計算核銷預測的AUC值,再對所有優惠券的AUC值求平均作為最終的評價標準。

根據使用者線上online、線下offline這兩份資料表,首先對資料集進行劃分,然後提取以下特徵:使用者相關的特徵、商家相關的特徵,優惠券相關的特徵,使用者與商家之間的互動特徵,以及利用本賽題的leakage得到的其它特徵(這部分特徵在實際業務中是不可能獲取到的)。最後訓練了XGBoost,GBDT,RandomForest進行模型融合。

賽題提供的預測集中,包含了同一個使用者在整個7月份裡的優惠券領取情況,這實際上是一種leakage,比如存在這種情況:某一個使用者在7月10日領取了某優惠券,然後在7月12日和7月15日又領取了相同的優惠券,那麼7月10日領取的優惠券被核銷的可能性就很大了。我們在做特徵工程時也注意到了這一點,提取了一些相關的特徵。加入這部分特徵後,AUC提升了10個百分點,相信大多數隊伍都利用了這一leakage,但這些特徵在實際業務中是無法獲取到的。

特徵提取:

1.使用者線下相關的特徵:使用者領取優惠券次數;使用者獲得優惠券但沒有消費的次數;使用者獲得優惠券並核銷次數;使用者領取優惠券後進行核銷率;使用者滿050/50200/200~500 減的優惠券核銷率;使用者核銷滿050/50200/200~500減的優惠券佔所有核銷優惠券的比重;使用者核銷優惠券的平均/最低/最高消費折率使用者核銷過優惠券的不同商家數量,及其佔所有不同商家的比重;使用者核銷過的不同優惠券數量,及其佔所有不同優惠券的比重;使用者平均核銷每個商家多少張優惠券;使用者核銷優惠券中的平均/最大/最小使用者-商家距離;

2.使用者線上相關的特徵:使用者線上操作次數;使用者線上點選率;使用者線上購買率;使用者線上領取率;使用者線上不消費次數;使用者線上優惠券核銷次數;使用者線上優惠券核銷率;使用者線下不消費次數佔線上線下總的不消費次數的比重;使用者線下的優惠券核銷次數佔線上線下總的優惠券核銷次數的比重;使用者線下領取的記錄數量佔總的記錄數量的比重;

3.商家相關的特徵:商家優惠券被領取次數;商家優惠券被領取後不核銷次數;商家優惠券被領取後核銷次數;商家優惠券被領取後核銷率;商家優惠券核銷的平均/最小/最大消費折率;核銷商家優惠券的不同使用者數量,及其佔領取不同的使用者比重;商家優惠券平均每個使用者核銷多少張;商家被核銷過的不同優惠券數量;商家被核銷過的不同優惠券數量佔所有領取過的不同優惠券數量的比重;商家平均每種優惠券核銷多少張;商家被核銷優惠券的平均時間率;商家被核銷優惠券中的平均/最小/最大使用者-商家距離;使用者-商家互動特徵;使用者領取商家的優惠券次數;使用者領取商家的優惠券後不核銷次數;使用者領取商家的優惠券後核銷次數;使用者領取商家的優惠券後核銷率;使用者對每個商家的不核銷次數佔用戶總的不核銷次數的比重;使用者對每個商家的優惠券核銷次數佔用戶總的核銷次數的比重;使用者對每個商家的不核銷次數佔商家總的不核銷次數的比重;使用者對每個商家的優惠券核銷次數佔商家總的核銷次數的比重;

4.優惠券相關的特徵:優惠券型別(直接優惠為0, 滿減為1);優惠券折率;滿減優惠券的最低消費;歷史出現次數;歷史核銷次數;歷史核銷率;歷史核銷時間率;領取優惠券是一週的第幾天;領取優惠券是一月的第幾天;歷史上使用者領取該優惠券次數;歷史上使用者消費該優惠券次數;歷史上使用者對該優惠券的核銷率;

5.其它特徵:這部分特徵利用了賽題leakage,都是在預測區間提取的;使用者領取的所有優惠券數目;使用者領取的特定優惠券數目;使用者此次之後/前領取的所有優惠券數目;使用者此次之後/前領取的特定優惠券數目;使用者上/下一次領取的時間間隔;使用者領取特定商家的優惠券數目;使用者領取的不同商家數目;使用者當天領取的優惠券數目;使用者當天領取的特定優惠券數目;使用者領取的所有優惠券種類數目;商家被領取的優惠券數目;商家被領取的特定優惠券數目;商家被多少不同使用者領取的數目;商家發行的所有優惠券種類數目;