如何預測百威啤酒銷量？資料競賽冠軍筆記分享思路

阿新 • • 發佈：2019-01-18

　　賽題背景

　　組織方：微軟加速器

　　真實資料來源：幾家頂級快消品牌

　　上海站：百威英博命題，並提供脫敏的業務資料

　　提出三個問題：

　　1.庫存需求預測

　　2.銷售數量預測

　　3.經銷商違規行為檢測

　　資料大致的情況

　　原始資料中，大致包含了百威全國400多家門店的資料，商品的種類800多個，一整年曆史銷售資料，精確到每日，資料400多萬行。需要預測未來一個月內未來商品的銷量。

　　第一步：資料探索

　　先進行資料探索，理解一下資料的分佈，和大致的特徵。後面怎麼樣去做你的模型。數值分佈，統計檢驗。不可能上來就跑個模型，看下效果。

　　常用方法一：數值分佈，統計檢驗，左邊直方圖，即資料的分佈情況，右邊這個是皮爾森相關性檢驗（Pearson correlation coefficient)，就是特徵之間的相關度是什麼樣的。

　　Python的庫missing number。觀察缺失值的情況。因為百威提供的資料質量很高，所以不需要考慮填充缺失值。

　　常用預測方法二：

　　預測方法一：歷史資料用折線圖等形式畫出來，從歷史中尋找商品和門店的行為規律。

　　有的有規律性，有的沒有。如下圖。

　　所以各個商品之間行為的模式（pattern）不一樣。

　　這樣的分析有什麼好處呢？通過分析發現，有的商品資料點很稀少。需要分別建立模型，有些不需要建立模型。歷史上出現一兩次的情況，可以歷史平均和預測為零來處理。不用極端資料影響整體的效果。

　　預測方法二：正則化。基於統計規則，歷史上某些值的平均值，比他兩三個標準差偏差還要多的話，會認為異常值，我們會把這些值縮小一下。

　　預測方法三：基於模型預測，先構建一個簡單的模型，訓練後，跑一下模型，觀察誤差特別大的點，也有可能是離群值或者異常值。這樣就可以針對他們做一些處理。

　　預測方法四：移動平均。

　　預測方法五：對資料進行log的預處理。

　　Log預處理是時間序列和線性模型中經常會遇到。很多情況下，會要求你的時間序列的值是穩定的，有時也會對預測值做Log處理，有時也會做差分處理。還有一些線性模型對殘差，大多數假設是一個正態分佈的殘差。

　　如果數值分佈的偏度很高，也會有問題，會用log來做預處理。

　　日期對齊也是時間序列預測問題中常見的技術。比如中國春節在一月或者二月，需要考慮歷史資料上春節的月份和今年春節的時間點是不是對的上。如果對不上是預處理，會提高預測的精度。

　　還有一些業務相關的邏輯。比如銷量為零，售價不為零之類。也需要做處理。

　　以上是資料探索的過程。

　　特徵工程的構建

　　加入地理位置，門店當地的經濟指數，當時氣溫、賽事、節假日、促銷活動等。

　　聚類方法：用無監督的方法，對原始資料進行聚類，把相像的門店或者產品放在一起。分別來做子模型，或者把標籤當做特徵加進去。

　　基礎特徵方面，百威提供原始資料集的特徵，在此基礎上做了一些各維度的統計聚合，需要各維度聚合——時間、門店、商品：比如，日期衍生（是否是節假日，本週的節假日有幾天，距離下一個工作日有幾天）、商品、門店屬性、各類高階計算。新商品從第一天開始售賣，累計的銷售天數。

　　高階的特徵處理方式：

　　2014年Facebook在論文中提出的方法——GBDT生成特徵，論文認為決策樹的模型可以自動做一些特徵的組合和轉換。說白了就是把Input放進去之後，看每一棵樹，落在每一個葉子的節點上，以此做一個新的特徵，原始論文中，把特徵放在一個邏輯迴歸的模型中去做，當然你也可以把輸出的特徵和原始的特徵加在一起，放在XGBoost、或者

　　FM（Factorization Machine因子分解機，又稱分解機器，旨在解決大規模稀疏資料下的特徵組合問題）。

　　圖片是Embedding的方法，因為深度學習的應用比較火的結果，大家都有興趣把深度學習的模型，應用到商業分析裡面。這個借鑑了word2vec的方法，讓相近的門店與產品，本來是稀疏的特徵，希望通過一系列的Embedding轉換之後，轉換到稠密的向量空間中，一些相近的商品門店，在向量空間中距離比較近，這樣起到了特徵轉換。

　　在比賽中，我們用Keras做了Embedding實現，把商品、日期、門店做了Embedding，

　　套幾個全連線的層，加一些東西，一直到輸出到結果。

　　t-SNE降維處理，畫在二維的圖示上面，

　　左邊月份的聚類，789月熱，距離在圖上近，天氣比較冷的月份在圖中距離差的比較遠。右邊t-SNE圖是所有門店的圖，因為得到的資料門店都用的ID（全數字）來表示，所以只能推測是行為模式比較像、或者地理位置比較近的門店是脫敏資料，所以沒有辦法檢驗。

　　模型調優

　　基線:歷史平均（一般來說對複雜的，實際資料的預測問題，對歷史銷量平均做預測值）

　　時間序列: SARIMAX, tbats, generalized additive model（廣義加性模型）

　　樹模型: Random Forest, XGBoost, LightGBM

　　深度學習: embedding, wide and deep, LSTM在特徵工程之後，我們會做一些模型的選擇。，還有一些方法，比如時間序列等方法。

　　樹模型是資料科學比賽常用的，XGBoost、隨機森林、因為是微軟的比賽，我們嘗試了微軟的LightGBM，實現效果如何。還嘗試了深度學習的模型embedding、wide and deep, LSTM等模型。

　　歷史平均、簡單平均、加權平均，移動平滑平均都可以使用。比賽中MAPE: 0.744，這個數值為後續服務，模型調優的基線。

　　時間預測模型的示意圖：GAM庫，時間預測模型比較簡單、預測值穩定，可解釋性強，黑點是真實值，深藍色預測值，淡藍色是置信區間。

　　有很多點捕捉不到，所以誤差會大。

　　時間序列的可解釋性

　　趨勢：7、8、9月天氣熱，啤酒銷量好；節假日、週末週期性強。

　　樹模型：

　　應用非常廣泛，尤其是非影象的，文字、語音，商業資料很多主流的方法就是樹模型，

　　1.Random Forest

　　2.GBRT

　　優點：

　　對於離群值的魯棒性較好

　　資料分佈要求低（不需要做預測力，神經網路一般會要求做歸一化，讓資料的分佈一致一些，否則模型效果會差。）

　　可解釋性強（每個節點都會告訴你，分裂的規則）

　　可以用於特徵選擇（訓練完會告訴你權重，可以依次來選擇一些特徵，把精簡之後的特徵餵給其他的模型，比如線性迴歸等簡單的模型）

　　這次比賽，

　　主要用XGBoost、LightGBM庫對比

　　XGBoost

　　Train time: 487.68 seconds

　　MAPE: 0.251

　　LightGBM（雖然需要指定超引數、但是效果很好）

　　Train time: 19.19 seconds

　　MAPE: 0.256

　　深度學習：

　　我們把預測值銷量歸一化，

　　Embedding網路示意圖，

　　計算資源需求較大

　　超引數調優

　　網路結構

　　Embedding size

　　Dropout

　　MAPE: 0.654

　　賽題中400萬的資料，跑起來非常慢，因為比賽中沒有使用GPU所以訓練的時間還是比較久的。

　　另外一點，Embedding把原始的特徵輸入，雖然特徵工程少一些，但網路的超引數需要調整，而且很多然而沒有理論依據，說白了就是嘗試，一直嘗試哪個會比較好，MAPE: 0.654比平均值稍微好一點。比起XGBoost的基準線還是差了很多。

　　把線性模型的東西加進來，可以兩個模型一起訓練，線性模型主要做記憶功能，歷史上出現的模式可以通過線性模型，記憶下來。

　　Deep Models提升泛化能力。

　　下圖是用TensorFlow來實現wide and deep models。

　　左邊是deep model的實現，右邊是線性模型（wide層）。

　　圖中為，原始論文中的特徵的構建方式，deep models那層要求輸入是密集型的，稀疏是不能直接做輸入的，所以要做轉換，有的用Embedding等來做轉換。

　　模型選擇完後，需要進行模型的訓練和調優，其中重要的一步是交叉驗證，在時間序列中，交叉驗證有一個重點——構建與真實場景一致的切分方式。在時間序列中用一個連續的一段時間去預測緊接著的時間一個時間切分，切分方式與真實場景一致，隨機切分不是在真實場景中的切分方式。會影響效果。

　　超引數的調整

　　1.啟發式調優

　　用經驗。比較簡單的是用啟發式的調優，先固定一個比較大的learning rate去調樹的數量、樹的深度、葉子節點分頁需要的條件之類的。

　　2.網格搜尋

　　把所有想要嘗試的引數寫下來。網格搜尋自動把所有的組合嘗試一遍，幫你找到最優的組合，把最優的結果返回給你。

　　3.貝葉斯優化

　　把超引數搜尋的過程看成高斯過程，庫會自動嘗試不同引數，然後尋找下一個最可能出現比較低的loss的嘗試，搜尋空間的計算量比網格搜尋小很多。

　　模型融合

　　用模型融合的方法來做效果提升。做完這個超引數調整之後，一般來說，最後用模型融合的方法來做效果提升，首先保證模型具有一定的差異性，可以選擇不同隨機數種子，生成不同的預測結果，最後再把各個模型融合起來。

　　比較常見的模型融合的方法是Blending和Stacking。是現在有很多庫已經實現了，呼叫非常方便。Stacking就是把各個模型的預測值預測出來，把預測值作為特徵輸入下一層模型中，下一層自動選擇最好的融合引數，有的模型權重高，有的權重低。把最後融合好的預測值給輸出。

　　誤差分析

　　預測結束後，會對模型做最終的調優。主要看模型會在哪些點上產生誤差。如何通過各種方法產生大的誤差，誤差最大的點要進行細緻深入的分析，為什麼會出現這樣的誤差。日後我們通過各種方法去解決大誤差。

　　一個新產品，第一次在要預測的月份售賣。賣出了幾千份。用歷史資料很難預測準確。所以會產生誤差。這種情況可以建立子模型專門去新品銷售數量的預測。融合模型方面，用了三個XGBoost、LightGBM、Random Forest，其實也可以用時間序列和神經網路，但是主要是因為計算資源有限，所以沒有觀察最終融合的效果。最後得到的MAPE: 0.236，比起基準線，好了很多。（完）

　　補充：

　　觀遠資料團隊也在探索，如何將深度學習應用到商業分析領域，現在來說還是待決的問題，不像影象和語音識別技術已經取得和很大的進展，深度學習在商業分析領域處理較少資料量，複雜規律、複雜業務特徵等方面很有挑戰。期待資料科學家的加入。

　　以上內容為觀遠資料技術合夥人周遠技術公開課分享筆記，未能與本人確認所有細節，僅供參考。賽事為微軟大中華區智慧零售（Smart Retail）解決方案新創企業黑客鬆上海站。

如何預測百威啤酒銷量？資料競賽冠軍筆記分享思路

如何預測百威啤酒銷量？資料競賽冠軍筆記分享思路

kaggle機器學習競賽冠軍及分享

『阿里大資料競賽』音樂流行趨勢預測_不斷更新

天池大資料競賽——糖尿病遺傳風險預測賽後總結（一）

百度視覺團隊斬獲 ECCV Google AI 目標檢測競賽冠軍，獲獎方案全解讀 | ECCV 2018

阿里天池大資料競賽——口碑商家客流量預測 A

用百度獲取網路資料

CCF大資料競賽-面向電信行業存量使用者的智慧套餐個性化匹配模型

大資料競賽平臺——Kaggle 入門

Keras之DNN：基於Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN實現分類預測概率——DIY二分類資料集&預測新資料點

鐵威馬NAS資料夾許可權的設定

資料競賽系列

2018全國百度地圖poi資料

基於Keras的LSTM多變數時間序列預測（北京PM2.5資料集pollution.csv）

dz論壇搜尋功能不能用的解決辦法之百度結構化資料提交

資料競賽入門資料與參賽經驗分享

智百威贏通思迅盤點機在超市中的應用實現超市不停業盤點不用關門停業盤點

2018百戰程式設計師大資料全套教程

各大資料競賽 Top 解決方案彙總

2018中國房地產百強企業大資料研究報告！

如何預測百威啤酒銷量？資料競賽冠軍筆記分享 思路

相關推薦

如何預測百威啤酒銷量？資料競賽冠軍筆記分享思路