1. 程式人生 > >Xgboost: 自帶介面與sklearn介面的簡單使用及對比

Xgboost: 自帶介面與sklearn介面的簡單使用及對比

眾所周知,Xgboost有兩個介面,分別是自帶的介面和sklearn介面。在Xgboost的官方文件中,我們可以看到其詳細的使用方法。

接下來,我們通過程式碼的方式對這兩種介面進行對比。

第一步:資料集的準備

from sklearn.model_selection import train_test_split
from pandas import DataFrame
from sklearn import metrics
from sklearn.datasets  import  make_hastie_10_2
from xgboost.sklearn import XGBClassifier
import xgboost as xgb
import pandas as pd

#準備資料,y本來是[-1:1],xgboost自帶介面邀請標籤是[0:1],把-1的轉成1了。
X, y = make_hastie_10_2(random_state=0)
X = DataFrame(X)
y = DataFrame(y)
y.columns={"label"}
label={-1:0,1:1}
y.label=y.label.map(label)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)#劃分資料集

第二步:分別使用兩個介面進行訓練和預測。兩種介面的引數完全一樣。

#XGBoost自帶介面
params={
    'eta': 0.3,
    'max_depth':3,   
    'min_child_weight':1,
    'gamma':0.3, 
    'subsample':0.8,
    'colsample_bytree':0.8,
    'booster':'gbtree',
    'objective': 'binary:logistic',
    'nthread':12,
    'scale_pos_weight': 1,
    'lambda':1,  
    'seed':27,
    'silent':0 ,
    'eval_metric': 'auc'
}
d_train = xgb.DMatrix(X_train, label=y_train)
d_valid = xgb.DMatrix(X_test, label=y_test)
d_test = xgb.DMatrix(X_test)
watchlist = [(d_train, 'train'), (d_valid, 'valid')]

#sklearn介面
clf = XGBClassifier(
    n_estimators=30,#三十棵樹
    learning_rate =0.3,
    max_depth=3,
    min_child_weight=1,
    gamma=0.3,
    subsample=0.8,
    colsample_bytree=0.8,
    objective= 'binary:logistic',
    nthread=12,
    scale_pos_weight=1,
    reg_lambda=1,
    seed=27)

print("XGBoost_自帶介面進行訓練:")
model_bst = xgb.train(params, d_train, 30, watchlist, early_stopping_rounds=500, verbose_eval=10)
print("XGBoost_sklearn介面進行訓練:")
model_sklearn=clf.fit(X_train, y_train)

y_bst= model_bst.predict(d_test)
y_sklearn= clf.predict_proba(X_test)[:,1]

第三步:評估結果

print("XGBoost_自帶介面    AUC Score : %f" % metrics.roc_auc_score(y_test, y_bst))
print("XGBoost_sklearn介面 AUC Score : %f" % metrics.roc_auc_score(y_test, y_sklearn))

# 將概率值轉化為0和1
y_bst = pd.DataFrame(y_bst).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
y_sklearn = pd.DataFrame(y_sklearn).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1)
print("XGBoost_自帶介面    AUC Score : %f" % metrics.accuracy_score(y_test, y_bst))
print("XGBoost_sklearn介面 AUC Score : %f" % metrics.accuracy_score(y_test, y_sklearn))
'''
XGBoost_自帶介面    AUC Score : 0.970292
XGBoost_sklearn介面 AUC Score : 0.970292
XGBoost_自帶介面    AUC Score : 0.897917
XGBoost_sklearn介面 AUC Score : 0.897917
'''

我們可以看到,在兩種介面的引數完全一樣的情況下,無論是評估AUC還是準確率,自帶的介面和sklearn介面的結果完全一樣!這說明,在我們平常實踐中,使用哪個介面都是可以的。