IJCAI2018阿里媽媽演算法大賽：八強攻略

阿新 • • 發佈：2019-01-12

在這裡插入圖片描述
**

JCAI-18 阿里媽媽搜尋廣告轉化預測

**
IJCAI-18 阿里媽媽國際廣告演算法大賽圓滿結束，我所在的隊伍也幸運的從5300支隊伍中進入決賽八強，在杭州阿里巴巴總部接受了答辯，這次的IJCAI和阿里舉辦的比賽吸引了六大洲的隊伍，競爭也是異常的激烈，我們隊伍一共有三個人，一個博士，一個碩士，一個本科生，整個比賽下來也是收穫頗多。
這是我們團隊介紹，嘿嘿。
在這裡插入圖片描述
————————————————————————————————————
1.資料分析
1）賽題內容

本次比賽以阿里電商廣告為研究物件，提供了淘寶平臺的海量真實交易資料，參賽選手通過人工智慧技術構建預測模型預估使用者的購買意向，即給定廣告點選相關的使用者（user）、廣告商品（ad）、檢索詞（query）、上下文內容（context）、商店（shop）等資訊的條件下預測廣告產生購買行為的概率（pCVR），形式化定義為：pCVR=P(conversion=1 | query, user, ad, context, shop)

（2）評估指標

通過logarithmic loss（記為logloss）評估模型效果（越小越好），公式如下：
在這裡插入圖片描述
（3）資料欄位

（4）視覺化

_複賽訓練集所有id統計
在這裡插入圖片描述
_item

_user

_context

_shop

_time：train+test

_上午點選的分佈

_下午點選的分佈

————————————————————————————————————
2.資料清洗
（1）缺失值清洗(-1)

對資料分析發現有大量-1的值，大部分-1值屬性所對應的商品，店鋪，和使用者在訓練集和測試集中分佈不均，對於連續型變數使用均值代替，對於離散型變數使用眾數或者中位數代替。
————————————————————————————————————
3.特徵工程

1.各個屬性基本特徵，屬性內交叉特徵在這裡插入圖片描述

2.交叉特徵

3.分佈特徵

（1）item_sales_leval在context_page_id 的排序在這裡插入圖片描述
（2）shop_review_positive_rate/shop_score_service等的改變

（3）在使用者點選週期中，購買一般發生在開頭或者末尾

————————————————————————————————————
4.模型設計
1.XGBoost + Light GBM

對比各種主流模型，我們前期選擇了XGBoost和Light GBM，後期單一選擇XGBoost。

在這裡插入圖片描述
我們三人抽取不同的特徵，劃分不同的資料集，得到差異性較大的model，進行融合

整合方法（Ensembling methods），我們根據線上成績，減去-0.138的基數，然後將差擴大到整數後算出權重，進行融合在這裡插入圖片描述

2.設定XGBoost的資料權重：

通過觀察發現7號的資料明顯跟前7天分佈有差距，所以在運用XGBoost模型時，設定權重weight，凸顯7號資料的特點，以及儘量消除前7天低轉化率對7號的影響。在這裡插入圖片描述
3.特徵重要度
————————————————————————————————————
5.總結與思考
1.賽題回顧

整個大賽一共持續了將近兩個月，本次比賽以阿里電商廣告為研究物件，提供了淘寶平臺的海量真實交易資料，參賽選手通過人工智慧技術構建預測模型預估使用者的購買意向。

、

(1) 本賽題初賽是日常的轉化率預估，複賽是特殊日期的轉化率預估，通過對一般統計特徵的抽取，可以達到baseline的成績，然後交叉特徵的選取，時間特徵的抽取讓成績穩步上升。

(2) 複賽更挑戰程式碼優化以及資料取捨的問題，複賽的資料量較大，普通的機器並不能勝任，在程式碼的優化上面做了很多功夫，包括對dataframe列型別的轉換，一些高維矩陣的及時collect，最終能夠讓模型跑下去。

2.不足之處

(1) 前期特徵的選擇應該是按部就班，每增加一類特徵，都需要通過線下或者線上反應來取捨，而不是堆疊很多特徵，這個問題讓我們複賽時出現了特徵冗餘，加入新特徵後表現不明顯。

(2) 需要做大量的資料探索與分析，結合實際業務進行思考，而且不能空思考不驗證，通過視覺化或者線下都可以進行驗證，記得有位選手說過，他看到的不是資料，而是畫面，資料是死板的，只有進行徹底的分析與咀嚼，才能讓資料業務生動起來，這點我們做的不足。

(3) 特徵固然重要，但也限制了我們的思維。我們並沒有去嘗試不同的模型，以及不同的ensemble方法，這導致我們在複賽B榜的時候名詞每天都在下降，最後一次模型融合以失敗告終。

(4) 太過於在意每天點滴的提高而沒有大局觀，沒有良好的心態去面對排名的下落，比賽的競爭很激烈，但我們的潛力遠遠沒有發揮出來。

3.眺望遠方

(1) 我們隊三人都算是天池的新人，能在這場比賽中跟這麼多優秀的TIANCHIER進行競爭，交流，讓我們收穫頗多，沒能夠進入決賽，是一種遺憾，而是一種激勵，激勵著我們在今後的比賽中發揮更大的潛力與實力。

(2) 會當臨絕頂，一覽眾山小，眺望遠方，我們的征程還未落幕，希望我們隊友三人能夠更進一步，也祝福天池能夠舉辦越來越多精彩的比賽。
————————————————————————————————————
6.總決賽回顧，嘻嘻
其實也沒啥具體要說的，分享一些照片，：）

官方的宣傳照
在這裡插入圖片描述

今年的ICAI大會在瑞典的斯德哥爾摩舉辦，屆時決賽的冠亞季軍將會在大會上演講，羨慕！

這是答辯的8支隊伍合影，這次比賽有很多外國友人蔘加，可最後決賽的隊伍全是中國隊伍，最遠的也只有一個香港隊。
在這裡插入圖片描述

這是阿里媽媽副總裁張勤
一些現場的照片

個人照就不上了，長得比較囧~~