1. 程式人生 > >資料競賽系列

資料競賽系列

1.方法論

1.1 EDA

  1. 傳統問題低維度特徵視覺化與強特徵構造:https://www.kesci.com/apps/home/project/59f687e1c5f3f511952baca0
  2. 時間序列問題EDA的分析角度,時序必備背景知識(2.1和2.2是翻譯的經典時序書籍Forecasting Principles and Practice的前兩章節,很多比賽的時序特徵工程以及模型的選擇都會參考該書,此處僅僅翻譯了前兩章節最基礎的背景知識,個人認為也是做時間序列分析必須知道的一些背景知識以及技術,案例可以參考鹽城汽車銷量預測)

    2.1 時間序列預測必備背景知識(Part1):

    https://www.kesci.com/apps/home/project/5ae07320c177864364dbffa0 

    2.2 時間序列預測必備背景知識(Part2): https://www.kesci.com/apps/home/project/5ae0740bc177864364dc005b

1.2 演算法原理

1.2.1 資料預處理 & 特徵工程

  1. Autoencoder:https://www.kesci.com/apps/home/project/5a3902de0e1fc52691fdd5cb
  2. PCA&FLD的實踐手冊:https://www.kesci.com/apps/home/project/5ae05ccfc177864364dbf1f2

1.2.2 模型

  1. XGBoost:https://www.kesci.com/apps/home/project/5a05851660680b295c1ee415

1.2.3 模型整合

  1. 競賽整合方法必備技能:https://www.kesci.com/apps/home/project/59a9307bc8d2787da4ddcf94

2.案例

以平時的比賽為例,介紹上述方法論的實踐運用

2.1 簡單的資料分析案例(EDA)

比賽的資料分析

  1. 天池工業AI大賽,初賽A榜top10的EDA:https://www.kesci.com/apps/home/project/5a37c6c10ecda5727fe3ac54
  2. 印象鹽城·數創未來大資料競賽 - 鹽城汽車銷量預測:https://www.kesci.com/apps/home/project/5a7bb00a5345a74929833545
  3. 2018 ijcai 廣告預估比賽總結(感謝來自川越愛情的分享):https://www.kesci.com/apps/home/project/5afb055a7f710c050c7a28ad
  4. 快手使用者興趣建模大賽:https://www.kesci.com/apps/home/project/5b27b37af110337467aeb904

趣味的資料分析

  1. 從資料分析角度看倫納德和詹姆斯的差距到底在哪?:https://www.kesci.com/apps/home/workspace/project?from=list-side

2.2 比賽例子案例

完整的比賽案例

  1. 泰坦尼克比賽入門:https://www.kesci.com/apps/home/project/5af18c294b7639369e6c289c
  2. 螞蟻比賽多分類方案(Top 100 Baseline):https://www.kesci.com/apps/home/project/5a17d444d0178b641c340c14
  3. 前海徵信“好信杯”大資料演算法大賽——入門篇(Top 15 Baseline):https://www.kesci.com/apps/home/project/59ca5ff521100106623f3db3
  4. 天池工業AI大賽-智慧製造質量預測(top25的Baseline):

    4.1 天池工業AI大賽-智慧製造質量預測(Baseline Part1):https://www.kesci.com/apps/home/project/5a6ed4808d5dc42e46266643 

    4.2 天池工業AI大賽-智慧製造質量預測(Baseline Part2):https://www.kesci.com/apps/home/project/5a6ed4438d5dc42e462665fd

  5. 2017“達觀杯”個性化推薦演算法挑戰賽(Top5 Baseline): https://www.kesci.com/apps/home/project/5abb42b4f5628022ef83ca1a

  6. 天池天文比賽(初賽A榜Top5 Baseline):https://www.kesci.com/apps/home/project/5ac6e7c88bda591534b28e9d<br />

    6.1 天池天文比賽(複賽第一 &決賽第二的方案):https://www.kesci.com/apps/home/project/5ad6be737238515d80b5dd60 

    6.2 天池天文比賽答辯PPT:https://www.kesci.com/apps/home/project/5aeef2070739c42faa216468

  7. 天池印象鹽城·數創未來大資料競賽 - 鹽城汽車銷量預測競賽(亞軍思路總結):https://www.kesci.com/apps/home/project/5ad7f8027238515d80b67c63
  8. 銀聯“信貸使用者逾期預測”演算法大賽總結(目前已進入決賽,具體排名未知,至少top15+):https://www.kesci.com/apps/home/project/5ae969440739c42faa1eab95
  9. DC使用者貸款風險預測(top1答辯PPT):https://www.kesci.com/apps/home/project/5b1e0bfab1cd050aefd2876f

3.機器學習基礎學習路線

  1. https://github.com/JustFollowUs/Machine-Learning