機器學習 scikit-learn1 預測貸款使用者是否會逾期
scikit-learn 一週演算法實踐集訓
簡介
12個人的小組練習任務 - 提升演算法實踐能力.
【資料】資料是金融資料, 我們要做的是預測貸款使用者是否會逾期. 表格中, status是標籤: 0表示未逾期, 1表示逾期.
【學習過程】: 構建模型 - 模型融合 - 模型評估 - 交叉驗證 - 模型調參 - 特徵工程
【遵循】一次只做一件事, 先實現再優化
【期望目標】掌握資料探勘的流程, 提升合作的能力.
程式碼說明
程式碼目錄 https://github.com/spareribs/kaggleSpareribs/tree/master/Overdue
程式碼目錄結構
Overdue ├─dl: 深度學習 TODO ├─ml: 機器學習 │ ├─code │ │ ├─ sklearn_config.py: 模型配置檔案 │ | ├─ sklearn_gcv.py: 模型配置 網路搜尋 │ | └─ sklearn_train.py: 模型訓練 │ ├─data: 資料存放的目錄 │ ├─features: │ | └─ base.py: 資料預處理 │ └─for beginner: TODO └─config.py: 全域性配置
程式碼使用方法
- 【必須】config.py 設定檔案存放的路徑
- 【必須】先執行 features 中的 base.py 先把資料處理好 [PS:需要根據實際情況修改]
- 【可選】再通過 code 中的 sklearn_gcv.py 搜尋模型的最佳配置
- 【必須】最後通過 code 中的 sklearn_train.py 訓練模型輸出結果
個人總結
- 機器學習 scikit-learn2 模型實踐 - 邏輯迴歸
- 機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹
- 機器學習 scikit-learn4 模型實踐 - xgboost和lightgbm
- 機器學習 scikit-learn5 模型評分 - AUC ROC
- 機器學習 scikit-learn6 特徵工程 - 資料預處理
- 機器學習 scikit-learn7 網路搜尋 - CV & Gird Search
參考文件
任務1. 邏輯迴歸模型實踐【2018.11.14 - 2018.11.15】
爖:https://github.com/LongJH/ALittleTarget/blob/master/Mission1/mission1-lr.ipynb
Ash:https://blog.csdn.net/truffle528/article/details/84072452
憨寶寶:https://blog.csdn.net/qq_41205464/article/details/84111934
黑桃,等到的過去:https://blog.csdn.net/lgy54321/article/details/84101357
排骨 https://blog.csdn.net/q370835062/article/details/84173260
面朝大海 https://blog.csdn.net/zhangyunpeng0922/article/details/84106715
大範先生,月光疾風:https://blog.csdn.net/weixin_40671804/article/details/84111029
jepson:https://github.com/JepsonWong/Algorithm_Competition/blob/master/客戶逾期分析/test.ipynb
李碧涵:https://blog.csdn.net/a786150017/article/details/84138846
任務2.支援向量機和決策樹模型實踐 【2018.11.15 - 2018.11.16】
爖:https://github.com/LongJH/ALittleTarget/blob/master/Mission1/mission2-svm-dt.ipynb
憨寶寶:https://blog.csdn.net/qq_41205464/article/details/84169197
Ash:https://blog.csdn.net/truffle528/article/details/84168200
黑桃:https://blog.csdn.net/Heitao5200/article/details/84141345
等到的過去:https://blog.csdn.net/lgy54321/article/details/84145213
面朝大海:https://blog.csdn.net/zhangyunpeng0922/article/details/84136003
排骨:https://blog.csdn.net/q370835062/article/details/84311268
大範先生:https://blog.csdn.net/weixin_40671804/article/details/84144980
月光疾風:https://yezuolin.com/2018/11/UserLoanOverdue/
jepson:https://github.com/JepsonWong/Algorithm_Competition/blob/master/客戶逾期分析/test.ipynb
李碧涵:https://blog.csdn.net/a786150017/article/details/84138846
任務3.構建xgboost和lightgbm模型進行預測【2018.11.16 - 2018.11.18】
爖:https://github.com/LongJH/ALittleTarget/blob/master/Mission1/mission3-xgboost-lightgbm.ipynb
憨寶寶:https://blog.csdn.net/qq_41205464/article/details/84204927
Ash:https://blog.csdn.net/truffle528/article/details/84200976
黑桃:https://blog.csdn.net/Heitao5200/article/details/84196023
等到的過去:https://blog.csdn.net/lgy54321/article/details/84202770
面朝大海:https://blog.csdn.net/zhangyunpeng0922/article/details/84193403
排骨:https://blog.csdn.net/q370835062/article/details/84436395
大範先生:https://blog.csdn.net/weixin_40671804/article/details/84186625
月光疾風:https://yezuolin.com/2018/11/UserLoanOverdue_XGBoost&LightGBM/
jepson:https://github.com/JepsonWong/Algorithm_Competition/blob/master/客戶逾期分析/test.ipynb
李碧涵:https://blog.csdn.net/a786150017/article/details/84138846
任務4.模型評分【2018.11.19 - 2018.11.20】
- 記錄五個模型關於precision,rescore,f1,auc,roc的評分表格,畫出auc和roc曲線圖
爖:https://blog.csdn.net/l75326747/article/details/84233247
https://github.com/LongJH/ALittleTarget/blob/master/Mission1/mission4-metrics.ipynb
憨寶寶:https://blog.csdn.net/qq_41205464/article/details/84311363
Ash:https://blog.csdn.net/truffle528/article/details/84310726
黑桃:https://blog.csdn.net/Heitao5200/article/details/84299290
等到的過去:https://blog.csdn.net/lgy54321/article/details/84309512
面朝大海:https://blog.csdn.net/zhangyunpeng0922/article/details/84257426
排骨:https://blog.csdn.net/q370835062/article/details/84436428
大範先生:https://blog.csdn.net/weixin_40671804/article/details/84305384
月光疾風:https://yezuolin.com/2018/11/TheModelofUserLoanOverdueEvaluation/
jepson:https://github.com/JepsonWong/Algorithm_Competition/blob/master/客戶逾期分析/test.ipynb
李碧涵:https://blog.csdn.net/a786150017/article/details/84138846
任務5. 特徵工程 - 資料預處理【2018.11.20 - 2018.11.21】
- 關於資料型別轉換以及缺失值處理(嘗試不同的填充看效果)以及你能借鑑的資料探索
爖:https://blog.csdn.net/l75326747/article/details/84326897
憨寶寶 https://blog.csdn.net/qq_41205464/article/details/84348766
Ash:https://blog.csdn.net/truffle528/article/details/84337769
黑桃:https://blog.csdn.net/Heitao5200/article/details/84322187
等到的過去:https://blog.csdn.net/lgy54321/article/details/84330070
面朝大海:https://blog.csdn.net/zhangyunpeng0922/article/details/84346663
排骨:https://blog.csdn.net/q370835062/article/details/84436445
大範先生:https://blog.csdn.net/weixin_40671804/article/details/84346853
月光疾風:https://yezuolin.com/2018/11/UserLoanOverdue_FeatureEngineering/
jepson:https://github.com/JepsonWong/Algorithm_Competition/blob/master/客戶逾期分析/test.ipynb
李碧涵:https://blog.csdn.net/a786150017/article/details/84348205