老白聊資料-關於銷售預測的那些事

阿新 • • 發佈：2019-01-18

小白混跡了幾年，現在是個老白了，看似啥玩意都懂點，啥玩意也都不精通，今天和大家說的是關於銷售預測的那些事，因為最近看了JDD大賽，也和幾個參賽隊員交流，有些有意思的想法，和大家分享一下。

最近在關注京東金融舉辦的JDD大賽，這個比賽比較有意思。大賽也是分了幾道賽題，比如豬臉識別，信貸需求預測，店鋪銷售預測，登入行為識別，總的而言，比較貼近業務實際使用場景。比賽也是分了演算法組和商業組，演算法組是純粹的PK演算法的效果，而商業組，除了完成演算法的構建和評分排名，進入決賽的隊伍還要寫作BP，構建一個基於賽題基礎的商業模型。總體說，從京東金融的業務需要出發，本身題目具備商業價值，具體賽題資訊如下圖：

今天就花點時間說說個人對其中店鋪銷售預測這道賽題的一些理解和認識。在商業組中，官方如是描述賽題：對店鋪銷量進行預測是“京小貸”業務信用評估的關鍵環節之一，只有準確的預估店鋪未來的銷量，才能合理的設定貸款額度，提高資金利用率。具體的賽題內容是：對店鋪開展貸款業務需要定期測量和跟蹤經營狀況，對店鋪銷量進行預測是其中的關鍵環節之一，只有準確的預估店鋪未來的銷量，才能準確的評估其資金需求並設定合理的貸款額度。本題目希望參賽者通過競賽資料中店鋪過往的銷售記錄，商品資訊，商品評價，以及廣告費用等資訊來建立預測模型，預測店鋪未來90天內的銷售額。賽題資料為業務情景競賽資料，所有資料均已進行了取樣和脫敏處理，欄位取值與分佈均與真實業務資料不同。簡單說，通過精準預測銷售，掌握未來店鋪的業務情況，基於此，進行業務授信，發放貸款。這也就是說，當預測越精準，那麼業務評估能力就越強，可以合理開展業務。而京東給到的賽題資料具體如下：

評分標準如下：對於每個店鋪，計算其真實銷量和預測銷量之間的差異，按如下公式計算分數，其中yi真實值，y_hati為預測值，m為待測店鋪數量：

換句話說，誰的得分越低，就是誤差更小，誰的預測效果更好。我查看了店鋪銷售預測商業組的排行榜，發現了一些有意思的事情，你會看到大家的得分基本沒有拉開差距，第一名是0.393，而第三名是0.3945，也就是說大家在方法使用上，或者資料理解上，基本上差異性很小。可能在具體的嘗試過程中，由於資料的準備不同，帶來了一些細微差異，換句話這個榜單前三名的隨機性很強，基本沒什麼差別。我們並沒有看到出現那種差距極大的隊伍出現。即使我們去看演算法組的第一名得分也只是0.37。商業組前10名得分

演算法組前三名得分

那這個基本可以忽略的差距說明了什麼問題，為什麼沒有出現一騎絕塵的隊伍，對此我們此時需要回到這道題目本身來思考。首先銷售預測問題的一些成熟演算法和模型，我們不需要多言，你是時間序列也好，還是ARIMA，LR，BPNN也罷，總的說演算法就那麼多，想解決這個問題，是無法脫離這些的。那麼為什麼預測的水平上不去，仍舊高達30%的誤差？其實在官方給出的資料中，貌似給定了一定的預測所使用資料的邊界，也許資料本身就代表了這道題目的侷限性。我們會發現，官方給出來的用於預測的資料中，涵蓋了廣告充值，評論，上下架時間的資料。似乎想從這個資料方面，來極限考驗參賽團隊的演算法和資料準備實力。但是再換一個維度思考，也許這是京東認為的對於銷售預測相對有用的維度資料，當然了也涵蓋部分商品資訊，比如品牌和分類，似乎從中都是要找到與銷售數字的相關性，進而提升預測準確性，不過我們發現商品相關資訊，也只是關於品類這樣維度的資料。從銷售預測本身來看，如果我們繪製一條某店鋪銷售曲線，我們會發現，頭部有一兩件商品的銷售佔比很高，二其他很多產品銷售佔比很低，或者是我們將店鋪商品進行歸類，某一類商品可能佔據極高的銷售數字。這就是我們以前總提到的一個20/80原則，也叫做帕累托法則，也就是20%的人貢獻80%的業績。在這個資料中，其實這種情況也存在，比如少數商品貢獻多數收入的問題，少數店鋪貢獻多數收入。因此，在預測時，20/80原則實際上也是一種預測問題的處理思路，少數店鋪的銷售貢獻依賴少數商品，當然也依賴廣告或者評論的影響。不過從目前大家的分看，也許這幾個因素的權重總計在60%左右。那麼剩下40%的因素在哪裡？因為理論上，我們的得分是0才對。在這裡和大家的討論是如何提高預測準確率的一種思考，換句話，也是尋找40%的因素的一種思路。首先把銷售預測問題換個角度來看，就是判斷消費者購買的意願高低，再細緻來看，就是消費者的購買動機或者購買決策的判斷，一旦找到那個準確的相關度最高的動機，那麼就意味著，銷售的預測精度就會大幅度提升。從初賽這些人員的預測結果看，以現有的演算法，意味著這些因素與購買動機的的相關度，僅限於這個得分了。我們之前用於銷售預測的資料考慮了營銷因素（廣告），社交因素（評論），商品開發（上下架時間），但我們發現這些都是巨集觀因素，但是今天的消費者慢慢趨於理性，會考慮評論因素，也會貨比三家，儘管價格還是一個很重要的因素。但是我們發現作用很大的評論資料，在這裡，被官方處理為正面評論，中性評論，負面評論，得說一句，這種資料的處理在資料集開放之前就做好了用1，0，-1來代替，但是對於語義的處理，劃分三類標籤，會出現一些偏差，畢竟如何理解正面，中性，負面，這個人的經驗是不同的。這或許是本賽題中一個思考的方向。不過如果排除這個因素我們會發現，似乎還是無法說明誤差為什麼很大，這時我們需要跳出來看，我們似乎忘記了很多的微觀因素，比如商品本身的品質，引數，元素，顏色等等，這些不起眼的東西，也許正是最重要的驅動消費者購買的最重要動機。在銷售預測問題上，如果我們能夠挖掘到使用者購買的微觀動機，也就是商品本身是否具備潛力和暢銷特性，那麼就能很好的捕捉到店鋪的經營狀態。回看這道比賽題目，我們是要完成對未來的預測，所以我們要掌握到未來的除了營銷計劃，還有本身商品的屬性，未來的空間，當你能夠精準捕捉到哪些商品能夠具備爆款屬性時，就意味著，你看到了80%的銷售收入機會，同時，基於微觀商品的屬性，我們也會挖掘到哪些商品是滯銷的，是不適合進行推廣和上架的。對店鋪的授信同時，對於店鋪的經營，如果能夠形成的有效干預，則未來的雙向合作業務基礎才紮實。簡單說，我們需要進行商品本身DNA的拆解，找到那些重要的影響購買的元素，而一旦捕捉到，則意味著，我們能夠掌握的潛力和經營方向可以更加明確。這個可以舉個例在，比如服飾行業，我們可以對一一件衣服進行解構，比如版型，面料，圖案，型別，風格，季節等，基於這些潛藏在衣服中的要素，進行從微觀元素組合起來的預測分析，尋找爆款元素和相對應的產品，因為這些控制了較大的銷售份額，同時那些滯銷的元素也能尋找出來，並且可以進行防範和處理，減少不必要的損失。當然銷售預測的問題，我們都預測的是未來，如果在開始我們能夠提供未來可以很好銷售的產品，那麼銷售的預測也將迎刃而解。這看似是廢話，其實，當中我們會發現怎麼找到爆款產品，如何挖掘爆款，就潛藏在我們已有的資料之中。而整體銷售的預測，除了巨集觀因素的配合，這些內在微觀因素則是基礎，因為他們是構成消費者購買的驅動力之一，而每個商品的精準捕捉銷售可能性，也就計算出來整體的銷售可能性。最後再說一點的是，其實你看評論資料，我們不能簡單的歸結成1，0，-1，消費者的評論中隱藏了很多對於產品某一方面的鐘愛或者厭惡，而這恰恰是其他消費群體看到後，是否產生驅動力購買的關鍵，以此出發，我們剛才的思路就可以順下來。關於銷售預測的問題，今天就聊這麼多。如果大家感興趣交流，可以加微訊號：i-analysis，繼續交流

老白聊資料-關於銷售預測的那些事

老白聊資料-關於銷售預測的那些事

老白聊資料-為什麼你的營銷總是沒有效？

聊一聊整車廠的那些事——售後配件業務

取得十分鐘內、一小時內、一天內的資料 « 關於網路那些事...

Android 程序保活資料彙總與華為白名單那些事

誰說顏值與實力不能並存？3.14最美女神入駐TechNeo，邀你一起聊AI與區塊鏈那些事

香港資料中心你不知道的那些事

資料顯示格式設定那些事

資料結構與演算法的那些事

資料採集與分析的那些事——從資料埋點到AB測試

JAVA小白的進擊之路！！！2018.11.05日關於java序列化的那些事

資料搬遷，從GCP Storage 遷移到阿里雲儲存(OSS) « 關於網路那些事...

python資料分析：商品資料化運營（中）——基於引數優化的Gradient Boosting的銷售預測

資料傳輸方式 « 關於網路那些事...

資料結構中單鏈表的那些事

【資料庫】load data infile上億條的海量資料匯入mysql的那些事

資料檔案offline 時oracle 幹了那些事？

安卓實戰開發之JNI從小白到偽老白深入瞭解JNI動態註冊native方法及JNI資料使用

聊一聊高併發高可用那些事 - Kafka篇

哈夫曼編碼(Huffman coding)的那些事,(編碼技術介紹和程序實現)

老白聊資料-關於銷售預測的那些事

相關推薦