1. 程式人生 > >IJCAI2018阿里媽媽演算法大賽:八強攻略

IJCAI2018阿里媽媽演算法大賽:八強攻略

在這裡插入圖片描述
**

JCAI-18 阿里媽媽搜尋廣告轉化預測

**
IJCAI-18 阿里媽媽國際廣告演算法大賽圓滿結束,我所在的隊伍也幸運的從5300支隊伍中進入決賽八強,在杭州阿里巴巴總部接受了答辯,這次的IJCAI和阿里舉辦的比賽吸引了六大洲的隊伍,競爭也是異常的激烈,我們隊伍一共有三個人,一個博士,一個碩士,一個本科生,整個比賽下來也是收穫頗多。
這是我們團隊介紹,嘿嘿。
在這裡插入圖片描述
————————————————————————————————————
1.資料分析
1)賽題內容

本次比賽以阿里電商廣告為研究物件,提供了淘寶平臺的海量真實交易資料,參賽選手通過人工智慧技術構建預測模型預估使用者的購買意向,即給定廣告點選相關的使用者(user)、廣告商品(ad)、檢索詞(query)、上下文內容(context)、商店(shop)等資訊的條件下預測廣告產生購買行為的概率(pCVR),形式化定義為:pCVR=P(conversion=1 | query, user, ad, context, shop)

(2)評估指標

通過logarithmic loss(記為logloss)評估模型效果(越小越好), 公式如下:
在這裡插入圖片描述
(3)資料欄位

(4)視覺化

_複賽訓練集所有id統計
在這裡插入圖片描述
_item
在這裡插入圖片描述
_user
在這裡插入圖片描述
_context
在這裡插入圖片描述
_shop
在這裡插入圖片描述
_time:train+test
在這裡插入圖片描述
在這裡插入圖片描述
_上午點選的分佈
在這裡插入圖片描述
_下午點選的分佈
在這裡插入圖片描述
————————————————————————————————————
2.資料清洗
(1)缺失值清洗(-1)

對資料分析發現有大量-1的值,大部分-1值屬性所對應的商品,店鋪,和使用者在訓練集和測試集中分佈不均,對於連續型變數使用均值代替,對於離散型變數使用眾數或者中位數代替。
————————————————————————————————————
3.特徵工程


1.各個屬性基本特徵,屬性內交叉特徵在這裡插入圖片描述
2.交叉特徵
在這裡插入圖片描述
在這裡插入圖片描述
3.分佈特徵

(1)item_sales_leval在context_page_id 的排序在這裡插入圖片描述
(2)shop_review_positive_rate/shop_score_service等的改變
在這裡插入圖片描述
(3)在使用者點選週期中,購買一般發生在開頭或者末尾
在這裡插入圖片描述
在這裡插入圖片描述

————————————————————————————————————
4.模型設計
1.XGBoost + Light GBM

對比各種主流模型,我們前期選擇了XGBoost和Light GBM,後期單一選擇XGBoost。

在這裡插入圖片描述
我們三人抽取不同的特徵,劃分不同的資料集,得到差異性較大的model,進行融合在這裡插入圖片描述


整合方法(Ensembling methods),我們根據線上成績,減去-0.138的基數,然後將差擴大到整數後算出權重,進行融合在這裡插入圖片描述
2.設定XGBoost的資料權重:

通過觀察發現7號的資料明顯跟前7天分佈有差距,所以在運用XGBoost模型時,設定權重weight,凸顯7號資料的特點,以及儘量消除前7天低轉化率對7號的影響。在這裡插入圖片描述
3.特徵重要度在這裡插入圖片描述
————————————————————————————————————
5.總結與思考
1.賽題回顧

整個大賽一共持續了將近兩個月,本次比賽以阿里電商廣告為研究物件,提供了淘寶平臺的海量真實交易資料,參賽選手通過人工智慧技術構建預測模型預估使用者的購買意向。

(1) 本賽題初賽是日常的轉化率預估,複賽是特殊日期的轉化率預估,通過對一般統計特徵的抽取,可以達到baseline的成績,然後交叉特徵的選取,時間特徵的抽取讓成績穩步上升。

(2) 複賽更挑戰程式碼優化以及資料取捨的問題,複賽的資料量較大,普通的機器並不能勝任,在程式碼的優化上面做了很多功夫,包括對dataframe列型別的轉換,一些高維矩陣的及時collect,最終能夠讓模型跑下去。

2.不足之處

(1) 前期特徵的選擇應該是按部就班,每增加一類特徵,都需要通過線下或者線上反應來取捨,而不是堆疊很多特徵,這個問題讓我們複賽時出現了特徵冗餘,加入新特徵後表現不明顯。

(2) 需要做大量的資料探索與分析,結合實際業務進行思考,而且不能空思考不驗證,通過視覺化或者線下都可以進行驗證,記得有位選手說過,他看到的不是資料,而是畫面,資料是死板的,只有進行徹底的分析與咀嚼,才能讓資料業務生動起來,這點我們做的不足。

(3) 特徵固然重要,但也限制了我們的思維。我們並沒有去嘗試不同的模型,以及不同的ensemble方法,這導致我們在複賽B榜的時候名詞每天都在下降,最後一次模型融合以失敗告終。

(4) 太過於在意每天點滴的提高而沒有大局觀,沒有良好的心態去面對排名的下落,比賽的競爭很激烈,但我們的潛力遠遠沒有發揮出來。

3.眺望遠方

(1) 我們隊三人都算是天池的新人,能在這場比賽中跟這麼多優秀的TIANCHIER進行競爭,交流,讓我們收穫頗多,沒能夠進入決賽,是一種遺憾,而是一種激勵,激勵著我們在今後的比賽中發揮更大的潛力與實力。

(2) 會當臨絕頂,一覽眾山小,眺望遠方,我們的征程還未落幕,希望我們隊友三人能夠更進一步,也祝福天池能夠舉辦越來越多精彩的比賽。
————————————————————————————————————
6.總決賽回顧,嘻嘻
其實也沒啥具體要說的,分享一些照片,:)

官方的宣傳照
在這裡插入圖片描述
在這裡插入圖片描述
今年的ICAI大會在瑞典的斯德哥爾摩舉辦,屆時決賽的冠亞季軍將會在大會上演講,羨慕!
在這裡插入圖片描述
這是答辯的8支隊伍合影,這次比賽有很多外國友人蔘加,可最後決賽的隊伍全是中國隊伍,最遠的也只有一個香港隊。
在這裡插入圖片描述
在這裡插入圖片描述
這是阿里媽媽副總裁張勤在這裡插入圖片描述
一些現場的照片
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
個人照就不上了,長得比較囧~~

如果有什麼不懂的地方,可以發郵箱,如果對你有幫助的話,請點一個贊,謝謝。

相關推薦

IJCAI2018阿里媽媽演算法大賽強攻

** JCAI-18 阿里媽媽搜尋廣告轉化預測 ** IJCAI-18 阿里媽媽國際廣告演算法大賽圓滿結束,我所在的隊伍也幸運的從5300支隊伍中進入決賽八強,在杭州阿里巴巴總部接受了答辯,這次的IJCAI和阿里舉辦的比賽吸引了六大洲的隊伍,競爭也是異常的激烈

IJCAI-18 阿里媽媽搜尋廣告演算法大賽亞軍解決方案

一、  團隊介紹隊長:BRYAN資料探勘從業者,國內資料探勘競賽名將,天池資料科學家,IJCAI-17冠軍獲得者。曾多次在國內外著名賽事中取得名次。隊員:桑楡資料探勘從業者,國內資料探勘競賽名將,天池資料大師,IJCAI-17冠軍獲得者。曾多次在國內外著名賽事中取得名次。隊員

從0到1,從無到有阿里Python開發工程師的進階之路

如果你只能選讀一門程式語言,那麼除了 Python,還是 Python。     小編有個在阿里工作的朋友,這兩天和他在聊Python的發展,其實Python已經在不知不覺中發生了非常大的改變。Python這門語言十分高效,只要是和自動化有關係的,它可以發揮出巨

10月18日科技聯播阿里媽媽將推出全新的資訊流營銷產品;特斯拉購得上海建廠用地

雙十一新看點!阿里媽媽推出全新資訊流產品,賣貨邏輯將會有什麼新變化?特斯拉上海“動土”成功,以 9.73億元拿下中國工廠地塊,上海超級工廠專案啟動在即;大資料時代如何保障使用者資訊?蘋果交出滿意的新答案:推出個人隱私網站,允許使用者搜尋檢視個人資料;一起來看今天的科技快訊: 阿里媽媽將推出全新的資訊流營銷產

華為年程式設計師應聘阿里後吐槽薪資45K,還有必要跳槽嗎

一名在華為幹了八年的老員工最近有些糾結,其畢業後就在華為工作,一干就是八年,級別也到了令人羨慕的18級,最近其試著跳槽,拿到了阿里P8級別。按理說這級別也不低了,但就是工資不太美麗,於是一頓吐槽:華為應屆8年18級,目前收到阿里的offer,p8,薪資45k,股票若干,簽字費六個月工資,整體下來和目

ML從0到1 機器學習演算法思路實現全部過程最強攻

ML:從0到1 機器學習演算法思路實現全部過程最強攻略 設計思路     相關文章 ML之FE:結合Kaggle比賽的某一案例細究Feature Engineering思路框架ML之FE:Feature Engineering——資料型別之預處

阿里文娛永叔利器or成本損耗?演算法不是黑匣子

2018年9月16日,由AICUG人工智慧技術社群、Datafun社群、博學聯合主辦的2018 AI先行者大會於杭州召開,來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的A

演算法3-1進位制數

題目描述 將十進位制數轉換為八進位制,並輸出。 圖:將十進位制數轉換為八進位制並輸出 輸入描述 輸入包含若干十進位制正整數。 輸出描述 輸出相應的八進位制數,每個佔一行。 輸入樣例

阿里演算法專家信用風險評估評分卡建模方法及原理

信用風險評分卡為信用風險管理提供了一種有效的、經驗性的解決方法,是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習演算法,而是一種通用的建模框架,講原始資料通過分箱後進行特徵工程變換,繼而應用於線性模型

阿里移動推薦演算法大賽總結

一、 賽題說明 1. 競賽題目 在真實的業務場景下,我們往往需要對所有商品的一個子集構建個性化推薦模型。在完成這件任務的過程中,我們不僅需要利用使用者在這個商品子集上的行為資料,往往還需要利用更豐富的使用者行為資料。定義如下的符號: U:使用者集合

天池新人實戰賽-阿里移動推薦演算法大賽(離線賽與平臺賽)

競賽題目 (離線賽與平臺賽題目一樣,只是資料量不一樣,離線2000w+條資料,平臺11億+條資料) 在真實的業務場景下,我們往往需要對所有商品的一個子集構建個性化推薦模型。在完成這件任務的過程中,我們不僅需要利用使用者在這個商品子集上的行為資料,往往還需要利用更豐富的使

【ACM暑假培訓】遞迴演算法3跳棋的挑戰(皇后問題)

3、Checker Challenge 跳棋的挑戰 譯 by Jeru 檢查一個如下的6 x 6的跳棋棋盤,有六個棋子被放置在棋盤上,使得每行,每列,每條對角線(包括兩條主對角線的所有對角線)上都至多有一個棋子。列號上面的佈局可以用序列2 4 6 1 3 5來描述,第i個數

阿里天池大資料之移動推薦演算法大賽總結及程式碼全公佈

移動推薦演算法比賽已經結束了一個多星期了,現在寫一篇文章來回顧一下自己的參賽歷程。 首先,對不瞭解這個比賽的同學們介紹一下這個比賽(引用自官網): 賽題簡介 2014年是阿里巴巴集團移動電商業務快速發展的一年,例如2014雙11大促中移動端成交佔比達到42.6%,超過240億元。相比PC時代,移動端網路的訪

關於2015阿里移動推薦演算法大賽的總結(二)——推薦演算法

雖然開始走錯了路,但是也學到了東西,美團技術團隊的文件還是不錯的,喜歡的童鞋可以經常去瞅瞅,後面我會給連結的~~~~ —————————————————————————————————————————————————————————————— 具體流程 基本流程如

演算法基礎(超詳細最優二叉樹構建(1)

赫夫曼(Huffman)樹也稱最有二叉樹,是一類帶全路徑長度最短的樹,有著廣泛的應用。比如一棵判定樹,根據學生的成績劃分及格還是不及格還是優、中等、良好。顯然用if-else或者switch就可以簡單實現,當然可以直接毫不考慮的直接這樣寫,但是如果我們再肯花點功夫,就可以得

阿里移動推薦演算法大賽——特徵工程

1 特徵工程是什麼?   有這麼一句話在業界廣泛流傳:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。那特徵工程到底是什麼呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。通過總結和歸納,人們認為特徵工程包

Linux 入門記錄、Linux 文件系統

文件的 讀寫 com 發行版 信息 查看 block 系統日誌 成功 一、文件系統 操作系統通過文件系統管理文件及數據,磁盤或分區需要創建文件系統之後,才能被操作系統所用,創建文件系統的過程又稱之為格式化。沒有文件系統的設備又稱之為裸設備(raw),某些環境會需要裸設備,

51CTO博客2.0活躍之星評選大賽獲獎圖書收到了!!!

其它 51cto活動 我參加由51CTO組織的“51CTO博客2.0---活躍之星評選大賽“http://blog.51cto.com/51ctoblog/2097470” 獲得二等獎(自選圖書一本+學院金幣10個)。 感謝大家的支持,希望以後有活動大家也踴躍參加,下面是收到的獲獎圖書,給大家分享一下

JS排序算法總結種算法對比

線性 nlog 對比 http xxx 運行 bsp 排序 image 目的:掌握 排序算法的分類及不同算法復雜度的對比、搞清楚 XXX與數組初始狀態無關分為幾種情況:   a、算法復雜度與初始狀態無關;   b、元素總比較次數與初始狀態無關;   c、元素總移動次數與初始

數據結構大數據結構分類

先進先出 java 堆排 查找 隊列 比較 散列表 中一 就是 目錄 數據結構分類 1、數組 2、棧 3、隊列 4、鏈表 5、樹 6、散列表 7、堆 8、圖 @ 數據結構分類 數據結構是指相互之間存在著一種或多種關系的數據元素的集合和該集合中數據元素之間的關系組成 。