客戶逾期貸款預測[6] - 網格搜尋調參和交叉驗證

阿新 • • 發佈：2018-12-04

任務

使用網格搜尋對模型進行調優並採用五折交叉驗證的方式進行模型評估

實現

之前已經進行過資料探索，缺失值和異常值處理、特徵生成、特徵刪除、縮放等處理，具體可見前幾篇部落格。本文只進行帶交叉驗證的網格搜尋調參，然後與調參前評分做比較。

from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm.sklearn import LGBMClassifier

X_std_train,X_std_test,y_train,y_test = train_test_split(X_std,y,test_size=0.3,random_state=1122)

#網格搜尋調參
def gridSearch_vali(model,param_grid,cv=5):
    print("parameters:{}".format(param_grid))
    grid_search = GridSearchCV(estimator=model,param_grid=param_grid,cv=cv,scoring='f1_micro')
    grid_search.fit(X_std_train,y_train)
    print("Best parameters for",model,"is:{}".format(grid_search.best_params_))
    return grid_search.best_params_


print("邏輯迴歸")
lr_param_temp = {'C':[0.1,1,5],'penalty':['l1','l2']}
lr = LogisticRegression()
lr_param = gridSearch_vali(lr,lr_param_temp)
lr.set_params(**lr_param)
lr.fit(X_std_train,y_train)
print("決策樹")
dtc_param_temp = {'max_depth':[3,4,5,6]}
dtc = DecisionTreeClassifier()
dtc_param = gridSearch_vali(dtc,dtc_param_temp)
dtc.set_params(**dtc_param)
dtc.fit(X_std_train,y_train)
print("svm線性核")
svm_param_temp = {"gamma":[0.01,0.1],"C":[0.01,1]}
svm = SVC(kernel='linear',probability=True)
svm_param = gridSearch_vali(svm,svm_param_temp)  
svm.set_params(**svm_param)
svm.fit(X_std_train,y_train)
print("xgboost")
xgbc_param_temp = {'max_depth':[5,10],'learning_rate':[0.1,1]}
xgbc = XGBClassifier()
xgbc_param = gridSearch_vali(xgbc,xgbc_param_temp)
xgbc.set_params(**xgbc_param)
xgbc.fit(X_std_train,y_train)
print("lightgbm")
lgbc_param_temp = {'max_depth':[5,10],'num_leaves':[20,50]}
lgbc = LGBMClassifier()
lgbc_param = gridSearch_vali(lgbc,lgbc_param_temp)
lgbc.set_params(**lgbc_param)
lgbc.fit(X_std_train,y_train)
print('all done!')

	accuracy	precision	recall	f1 score	roc auc score	roc曲線
邏輯迴歸	訓練集: 0.8082 測試集: 0.7841	訓練集: 0.6946 測試集: 0.6905	訓練集: 0.3702 測試集: 0.3737	訓練集: 0.4830 測試集: 0.4849	訓練集: 0.8086 測試集: 0.8098
線性svm	訓練集: 0.8115 測試集: 0.7870	訓練集: 0.7602 測試集: 0.7471	訓練集: 0.3230 測試集: 0.3273	訓練集: 0.4534 測試集: 0.4552	訓練集: 0.8081 測試集: 0.8054
決策樹	訓練集: 0.8031 測試集: 0.7673	訓練集: 0.7131 測試集: 0.6609	訓練集: 0.3118 測試集: 0.2964	訓練集: 0.4339 測試集: 0.4093	訓練集: 0.7670 測試集: 0.7473
xgboost	訓練集: 0.9519 測試集: 0.7793	訓練集: 0.9894 測試集: 0.6667	訓練集: 0.8099 測試集: 0.3763	訓練集: 0.8907 測試集: 0.4811	訓練集: 0.9949 測試集: 0.7914
lightgbm	訓練集: 0.9651 測試集: 0.7821	訓練集: 0.9943 測試集: 0.6742	訓練集: 0.8609 測試集: 0.3840	訓練集: 0.9228 測試集: 0.4893	訓練集: 0.9967 測試集: 0.7987

大部分模型評分相比調參前都有上升，有些模型評分稍有下降，可能需要嘗試更多引數範圍。

問題

1.暫時不是很明白為什麼有些模型在調參之後訓練集的評分下降，測試集的評分升高，這種相反的趨勢是正常的嗎？

2.由於網格調參十分耗時，所以在選擇引數範圍時應該更加有針對性，目前只是盲目劃分。

參考

網格搜尋調參

交叉驗證原理小結

客戶逾期貸款預測[6] - 網格搜尋調參和交叉驗證

任務使用網格搜尋對模型進行調優並採用五折交叉驗證的方式進行模型評估實現之前已經進行過資料探索，缺失值和異常值處理、特徵生成、特徵刪除、縮放等處理

客戶逾期貸款預測[8] - 特徵選擇(iv值、隨機森林)

任務分別用IV值和隨機森林挑選特徵，再構建模型，進行模型評估 1 利用iv值挑選特徵這次暫時先用學長計算好的iv值挑選特徵，之後再嘗試自己計算iv值。選擇iv

學習筆記（七）模型的調參之網格搜尋和交叉驗證的簡單應用

學習筆記（七）模型的調參之網格搜尋和交叉驗證的簡單應用資料概述交叉驗證 1. Cross——Validation 交叉驗證 2. k折交叉驗證（kfold） 3.留一法Leave-one-out Cross-validation

sklearn-GridSearchCV 網格搜尋調引數

Grid Search 網格搜尋 GridSearchCV：一種調參的方法，當你演算法模型效果不是很好時，可以通過該方法來調整引數，通過迴圈遍歷，嘗試每一種引數組合，返回最好的得分值的引數組合比如支援向量機中的引數 C 和 gamma ，當我們不知道哪個引數

CRM客戶關係管理系統<6>營銷頁面的新增和更新操作

點選新增按鈕,觸發事件,檢視外掛 function openAddSaleChacneDialog() { $("#dlg").dialog("open"); } 點選更新按鈕事件 fu

模型調優：交叉驗證，超引數搜尋(複習17)

用模型在測試集上進行效能評估前，通常是希望儘可能利用手頭現有的資料對模型進行調優，甚至可以粗略地估計測試結果。通常，對現有資料進行取樣分割：一部分資料用於模型引數訓練，即訓練集；一部分資料用於調優模型配

Xgboost原理、程式碼、調參和上線實錄

對於一個演算法工程師而言，xgboost應該算的上是起手式，網上也有各式各樣的教程，這篇部落格主要從原理、程式碼、調參和上線進行覆蓋，進而構建一個直觀的演算法體系；生成的二叉樹是滿二叉樹還是完全二叉樹？調參方法

機器學習 scikit-learn7 - 預測貸款使用者是否會逾期 - 網路搜尋交叉驗證

網路搜尋 - 目錄 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 交叉驗證 TODO 3.2 使用網路搜尋獲得最優的引數 3.2.1 邏輯迴歸 4 問題 1 說

模型調參-網格搜尋Sklearn應用

網格搜尋的思想很直觀，sklearn中有封裝好的函式供呼叫。 1. 版本資訊 Python和sklearn的版本資訊如下: 1. Python版本 3.6.3 Anaconda 2. Sklearn版本 0.19.1 2. 引數 2.1 輸入引數

模型調參-網格搜尋

調參中的引數是指模型本身的超引數，而不是求解目標函式可以得到的引數解析解。常用的方法是網格搜尋，所謂的網格搜尋可以理解成窮舉法。而現實中，我們往往不能窮舉所有的引數的組合。因此需要對部分引數，在一定範圍內調參。具體的調參邏輯依賴於引數在不同演算法中的數學含義。本文簡單介紹網格搜尋的邏

關於sklearn中的網格搜尋（調參）

官方來源：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV http://scikit-l

ML - 貸款使用者逾期情況分析6 - Final

文章目錄思路 1. 匯入資料 2. 效能評估函式 3. 模型優化 3.1 LR模型 3.2 SVM模型 3.3 決策樹模型 3.4 XGBoost模型 3.5 LightG

超引數調優方法：網格搜尋、隨機搜尋、貝葉斯優化演算法

網格搜尋：網格搜尋可能是最簡單、應用最廣泛的超引數搜尋演算法，它通過查詢搜尋範圍內的所有的點來確定最優值。但是，這種搜尋方案十分消耗計算資源和時間，特別是需要調優的超引數比較多的時候。在實際應用中，網格搜尋法一般會先使用較廣的搜尋範圍和較大的步長，來尋找全域性最優值可

金融貸款逾期的模型構建4——模型調優

文章目錄一、任務二、概述 1、引數說明 2、常用方法二、實現 1、模組引入 2、模型評估函式 3、資料讀取 4、Logistic Regress

【scikit-learn】網格搜尋來進行高效的引數調優

[mean: 0.96000, std: 0.05333, params: {'n_neighbors': 1, 'weights': 'uniform'}, mean: 0.96000, std: 0.05333, params: {'n_neighbors': 1, 'weights': 'dista

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

Keras/Python深度學習中的網格搜尋超引數調優（附原始碼）

超引數優化是深度學習中的重要組成部分。其原因在於，神經網路是公認的難以配置，而又有很多引數需要設定。最重要的是，個別模型的訓練非常緩慢。在這篇文章中，你會了解到如何使用scikit-learn python機器學習庫中的網格搜尋功能調整Keras深度學習模型中的

【Machine Learning】通過網格搜尋進行調參

在我們日常的進行超引數優化工作時，可以手動去試，也可以使用隨機搜尋、批量隨機搜尋和網格搜尋等方法調到好的引數，關於網格搜尋，sklearn中GridSearchCV用於系統地遍歷多種引

CnetOS 6.6 rsync 的服務端和客戶端配置

rsync rsync 的服務端和客戶端配 linux centos 6.6 CentOS 6.6 rsync 的服務端和客戶端配置基本信息系統版本主機名IP地址角色CentOS 6.6backup10.0.0.10rsync服務端CentOS 6.6lamp0110.0.0.8rsync

6. Pycharm的傳參、快捷鍵、執行代碼、調試模式

pycharm debug1.通過pycharm給python程序傳遞參數腳本傳入的參數、多個參數這個大家都比較熟悉，就不多說了Pycharm如何傳入參數？先來認識python的參數：sys.argv[0] 腳本本身sys.argv[1] 第一個參數.... 第N 個參數以此類推回到正題，想要在pycha

客戶逾期貸款預測[6] - 網格搜尋調參和交叉驗證

任務

實現

問題

參考

相關推薦