1. 程式人生 > >GitHub 幹貨 | 各大數據競賽 Top 解決方案開源匯總

GitHub 幹貨 | 各大數據競賽 Top 解決方案開源匯總

處理 RoCE 聊天機器人 適應 log ocp 家電 風機 統一

AI 科技評論編者按:現在,越來越多的企業、高校以及學術組織機構通過舉辦各種類型的數據競賽來「物色」數據科學領域的優秀人才,並借此激勵他們為某一數據領域或應用場景找到具有突破性意義的方案,也為之後的數據研究者留下有價值的經驗。

Smilexuhc 在 GitHub 社區對各大數據競賽名列前茅的解決方案進行了整理,包括純數據競賽、自然語言處理(NLP)領域數據賽事的 Top 解決方案。對這些賽事感興趣的小夥伴可以一起來看一下這篇幹貨滿滿的匯總貼:

純數據競賽

1.2018 科大訊飛 AI 營銷算法大賽

本次大賽要求參賽者基於提供的訊飛 AI 營銷雲的海量廣告投放數據,通過人工智能技術構建來預測模型預估用戶的廣告點擊概率。比賽提供了 5 類數據,包括基礎廣告投放數據、廣告素材信息、媒體信息、用戶信息和上下文信息,總共為 1001650 初賽數據 和 1998350 條復賽數據(復賽訓練數據為:初賽數據+復賽數據)。

Rank1:https://zhuanlan.zhihu.com/p/47807544

2.2018 IJCAI 阿裏媽媽搜索廣告轉化預測

本次比賽要求參賽者以阿裏電商廣告為研究對象,基於提供的淘寶平臺的海量真實交易數據,通過人工智能技術構建來預測模型預估用戶的購買意向。本次比賽為參賽者提供了 5 類數據,包括基礎數據、廣告商品信息、用戶信息、上下文信息和店鋪信息。用於初賽的數據包含了若幹天的樣本;最後一天的數據用於結果評測,對選手不公布;其余日期的數據作為訓練數據,提供給參賽選手。

  • Rank1:https://github.com/plantsgo/ijcai-2018

  • Rank2:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

    https://blog.csdn.net/Bryan__/article/details/80600189

  • Rank3: https://github.com/luoda888/2018-IJCAI-top3

  • Rank8: https://github.com/fanfanda/ijcai_2018

  • Rank8: https://github.com/Gene20/IJCAI-18

  • Rank9(第一賽季):https://github.com/yuxiaowww/IJCAI-18-TIANCHI

3.2018 騰訊廣告算法大賽

本次算法大賽的題目源自一個基於真實業務場景的廣告技術產品——騰訊社交廣告 Lookalike 相似人群拓展。本題目要求參賽者基於提供的幾百個種子人群、海量候選人群對應的用戶特征,以及種子人群對應的廣告特征,構建算法準確標定測試集中的用戶是否屬於相應的種子包。

出於業務數據安全保證的考慮,比賽所提供的所有數據均為脫敏處理後的數據。整個數據集分為訓練集和測試集:訓練集中標定了人群中屬於種子包的用戶與不屬於種子包的用戶(即正負樣本),測試集將檢測參賽選手的算法能否準確標定測試集中的用戶是否屬於相應的種子包,訓練集和測試集所對應的種子包完全一致。初賽和復賽所提供的種子包除量級有所不同外,其他的設置均相同。

  • Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018

  • rank6: https://github.com/nzc/tencent-contest

  • Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th

  • Rank9: https://github.com/ouwenjie03/tencent-ad-game

  • Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th

  • rank10(初賽): https://github.com/ShawnyXiao/2018-Tencent-Lookalike

  • Rank11: https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest

    https://my.oschina.net/xtzggbmkk/blog/1865680

4.2018 高校大數據挑戰賽—快手活躍用戶預測

本次大賽要求參賽者基於脫敏和采樣後的數據信息,預測未來一段時間活躍的用戶。參賽隊伍需要設計相應的算法進行數據分析和處理,比賽結果按照指定的評價指標使用在線評測數據進行評測和排名。大賽提供的數據為脫敏和采樣後用戶行為數據,日期信息進行統一編號,第一天編號為 01,第二天為 02,以此類推,所有文件中列使用 tab 分割。

  • Rank1: https://github.com/drop-out/RNN-Active-User-Forecast

    https://zhuanlan.zhihu.com/p/42622063

  • Rank4: https://github.com/chantcalf/2018-Rank4-

  • Rank13(初賽 a 榜 rank2;b 榜 rank5):https://github.com/luoda888/2018-KUAISHOU-TSINGHUA-Top13-Solutions

  • Rank15: https://github.com/sunwantong/Kuaishou-Active-User

  • Rank20: https://github.com/bigzhao/Kuaishou_2018_rank20th

5.2018JDATA 用戶購買時間預測

本次大賽要求參賽者基於給定的近 3 個月購買過目標商品的用戶以及他們在前一年的瀏覽、購買、評價等數據信息,自行設計數據處理相關操作、訓練模型,從而預測未來 1 個月內最有可能購買目標品類的用戶,並預測他們在考察時間段內的首次購買日期。數據主要包括用戶基本信息、SKU 基本信息、用戶行為信息、用戶下單信息及評價信息。

Rank9:https://zhuanlan.zhihu.com/p/45141799

6.2018 DF 風機葉片開裂預警

本次大賽要求參賽者基於風機 SCADA 實時數據,通過機器學習、深度學習、統計分析等方法建立葉片開裂早期故障檢測模型,對葉片開裂故障進行提前告警。比賽提供的數據集包括訓練集和測試集:訓練集一共有 25 類風機共 4 萬個樣本,測試集沒有風機編號,共 8 萬個樣本。

Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system

7.2018 DF 光伏發電量預測

本次大賽要求參賽者在分析光伏發電原理的基礎上,論證輻照度、光伏板工作溫度等影響光伏輸出功率的因素,通過實時監測的光伏板運行狀態參數和氣象參數建立預測模型,預估光伏電站瞬時發電量,並根據光伏電站 DCS 系統提供的實際發電量數據進行對比分析,驗證模型的實際應用價值。

比賽提供訓練集 9000 個點,測試集 8000 個,包括光伏板運行狀態參數(太陽能電池板背板溫度、其組成的光伏陣列的電壓和電流)和氣象參數(太陽能輻照度、環境溫濕度、風速、風向等)。

Rank1:https://zhuanlan.zhihu.com/p/44755488?utm_source=qq&utm_medium=social&utm_oi=623925402599559168 (這一方案也可查看微信文章:《XGBoost+LightGBM+LSTM:一次機器學習比賽中的高分模型方案》https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g)

8.AI 全球挑戰者大賽—違約用戶風險預測

本次大賽要求參賽者基於馬上金融平臺提供的近 7 萬貸款用戶的基本身份信息、消費行為、銀行還款等數據信息,建立準確的風險控制模型,來預測用戶是否會逾期還款。

Rank1:https://github.com/chenkkkk/User-loan-risk-prediction

9.2016 融 360-用戶貸款風險預測

本次大賽要求參賽者基於由融 360 與平臺上的金融機構合作的提供近 7 萬貸款用戶的基本身份信息、消費行為、銀行還款等數據信息,建立準確的風險控制模型,來預測用戶是否會逾期還款。

Rank7:https://github.com/hczheng/Rong360

10.2016 CCF-020 優惠券使用預測

本次大賽要求參賽者基於給定的用戶在 2016 年 1 月 1 日至 2016 年 6 月 30 日之間真實線上線下消費行為,預測用戶在 2016 年 7 月領取優惠券後 15 天以內是否核銷。比賽評測指標采用 AUC,先對每個優惠券單獨計算核銷預測的 AUC 值,再對所有優惠券的 AUC 值求平均作為最終的評價標準。

Rank1: https://github.com/wepe/O2O-Coupon-Usage-Forecast

11.2016 CCF-農產品價格預測

本次大賽要求參賽者基於 2016 年 6 月以前的農產品價格數據,預測 7 月的農產品價格。本題目初賽基於全國各農場品交易市場的價格數據,復賽則加上天氣等多源數據。

Rank2: https://github.com/xing89qs/CCF_Product

12.2016 CCF-客戶用電異常

國家電網通過對用戶及所屬變壓器進行異常監測,並通過現場檢修人員根據異常情況對用戶進行抽檢,並反饋檢查結果,如發現為竊電用戶,將反饋竊電用戶信息。本賽題要求參賽者通過提供的相關數據與檢查人員檢查結果,建立竊電檢測模型,識別用戶竊電行為。

Rank4: https://github.com/AbnerYang/2016CCF-StateGrid

13.2016 CCF-搜狗的用戶畫像比賽

本題目初賽時要求參賽者基於給出的 2 萬用戶的百萬級搜索詞,以及經過調查得到的真實性別、年齡段、學歷這一訓練集,通過機器學習、數據挖掘技術構建分類算法對另外 2 萬人群的搜索關鍵詞進行分析,並給出其性別、年齡段、學歷等用戶屬性信息。復賽時,訓練集與測試集規模均擴展至 10 萬用戶。

  • Rank1: https://github.com/hengchao0248/ccf2016_sougou

  • Rank3: https://github.com/AbnerYang/2016CCF-SouGou

  • Rank5: https://github.com/dhdsjy/2016_CCFsougou

14.2016 CCF-聯通的用戶軌跡

精準營銷是互聯網營銷和廣告營銷的新方向,特別是在用戶身處特定的地點、商戶,如何根據用戶畫像進行商戶和用戶的匹配,並將相應的優惠和廣告信息通過不同渠道進行推送,成為了很多互聯網和非互聯網企業的新發展方向。本賽題以其中一個營銷場景為例,要求參賽者基於提供的用戶位置信息、商戶分類與位置信息等數據,完成用戶畫像的刻畫並進行商戶匹配。

RankX: https://github.com/xuguanggen/2016CCF-unicom

15.2016 CCF-Human or Robots

僅 2016 上半年,AdMaster 反作弊解決方案認定平均每天能有高達 28% 的虛假流量,即由機器人模擬和黑 IP 等手段導致的非人惡意流量。本賽題要求參賽者通過用戶行為日誌,自動檢測出這些虛假流量。

Rank6: https://github.com/pickou/ccf_human_or_robot

16.菜鳥-需求預測與分倉規劃

本賽題要求參賽者以歷史一年海量買家和賣家的數據為依據,預測某商品在未來二周全國和區域性需求量。參賽者需要用數據挖掘技術和方法精準刻畫商品需求的變動規律,對未來的全國和區域性需求量進行預測,同時考慮到未來的不確定性對物流成本的影響,做到全局的最優化。比賽提供商品從 2014年 10 月 10 日到 2015 年 12 月 27 日的全國和區域分倉數據。

Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning

Rank10: https://github.com/xing89qs/TianChi_CaiNiao_Season2

自然語言處理(NLP)

1.2018 DC 達觀-文本智能處理挑戰

此次比賽要求參賽者基於達觀數據提供的一批長文本數據和分類信息,結合當下最先進的 NLP 和人工智能技術,深入分析文本內在結構和語義信息,構建文本分類模型,實現精準分類。比賽提供的數據包含訓練數據集和測試數據集 2 個 csv 文件。

  • Rank1: https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess

  • Rank4: https://github.com/hecongqing/2018-daguan-competition

  • Rank10: https://github.com/moneyDboat/data_grand

  • Rank18: https://github.com/nlpjoe/daguan-classify-2018

2. 智能客服問題相似度算法設計——第三屆魔鏡杯大賽

本次大賽要求參賽者基於拍拍貸提供的智能客服聊天機器人真實數據,以自然語言處理和文本挖掘技術為主要探索對象,利用這些資源開發一種提高智能客服的識別能力和服務質量的算法。

  • rank6:https://github.com/qrfaction/paipaidai

  • rank12:https://www.jianshu.com/p/827dd447daf9

    • https://github.com/LittletreeZou/Question-Pairs-Matching

  • Rank16:https://github.com/guoday/PaiPaiDai2018_rank16

3.2018JD Dialog Challenge 任務導向型對話系統挑戰賽

本次大賽要求參賽者基於京東用戶與京東人工客服真實對話數據(脫敏後)以及給定的對話數據進行分析,構建端到端的任務驅動型多輪對話系統,輸出滿足用戶需求的答案——該答案需要能正確、完整且高效地解決問題,為用戶帶來簡單、省心、智能的購物咨詢體驗。

Rank3: https://github.com/zengbin93/jddc_solution_4th

4.2018CIKM AnalytiCup – 阿裏小蜜機器人跨語言短文本匹配算法競賽

本次大賽關註短文本匹配在語言適應的問題,源語言為英語,目標語言為西班牙語。比賽要求參賽者建立跨語言短文本匹配模型,來提升智能客服機器人的能力。

  • Rank2: https://github.com/zake7749/Closer

  • Rank12:https://github.com/Leputa/CIKM-AnalytiCup-2018

  • Rank18: https://github.com/VincentChen525/Tianchi/tree/master/CIKM%20AnalytiCup%202018

另外,Smilexuhc 還為大家提供了兩篇經驗文章,大家感興趣的話可以一並收藏向前輩們取取經。

經驗文章

  • 《介紹 featexp一個幫助理解特征的工具包》:http://www.sohu.com/a/273552971_129720

  • 《Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov》PDF:https://pan.baidu.com/s/1XkFwko_YrI5TfjjIai7ONQ

Via:https://github.com/Smilexuhc/Data-Competition-TopSolution

此前,雷鋒網(公眾號:雷鋒網) AI 科技評論也對一些數據競賽進行了報道,感興趣的同學可以前往閱讀往期報道:

京東 AI Fashion-Challenge 挑戰賽冠軍方案詳解(風格識別+時尚單品搜索):https://www.leiphone.com/news/201809/LBNzpCx58L98oK7M.html

ICPR 圖像識別與檢測挑戰賽冠軍方案出爐,基於偏旁部首來識別 Duang 字:https://www.leiphone.com/news/201808/CkFtca7oz5h2oCp8.html

KDD Cup 2018 冠軍「 first floor to eat latiao」:為什麽取這個隊名?因為大家都愛辣條:https://www.leiphone.com/news/201808/srcNcc3AWQTTJl4z.html

「2018 機器閱讀理解技術競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍:https://www.leiphone.com/news/201805/zB0caxkxv73YF8F9.html

看阿裏 AliOS 神燈團隊在推薦系統上的獨門秘籍:https://www.leiphone.com/news/201804/du0koPNyTZwLSb7x.html

專訪訊飛病竈分割比賽優勝團隊,年內會將該算法投入實用:https://www.leiphone.com/news/201803/B5qXDGkp5JUrJYWQ.html

Kaggle 大神 Eureka 的高手進階之路:https://www.leiphone.com/news/201803/QtcJFW9OoDI8CMWA.html

亞馬遜 Alexa Prize 比賽冠軍團隊專訪:聊天機器人的突破與創新:https://www.leiphone.com/news/201801/ySAXM1p2Qhy20vts.html

KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團隊討教了他們的「成功方法論」:https://www.leiphone.com/news/201708/KVadVGXYYIudv6lr.html

圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀:https://www.leiphone.com/news/201806/sFpN5c4zd0Z0fw32.html 雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

GitHub 幹貨 | 各大數據競賽 Top 解決方案開源匯總