Xgboost: 自帶介面與sklearn介面的簡單使用及對比
阿新 • • 發佈:2018-12-14
眾所周知,Xgboost有兩個介面,分別是自帶的介面和sklearn介面。在Xgboost的官方文件中,我們可以看到其詳細的使用方法。
接下來,我們通過程式碼的方式對這兩種介面進行對比。
第一步:資料集的準備
from sklearn.model_selection import train_test_split from pandas import DataFrame from sklearn import metrics from sklearn.datasets import make_hastie_10_2 from xgboost.sklearn import XGBClassifier import xgboost as xgb import pandas as pd #準備資料,y本來是[-1:1],xgboost自帶介面邀請標籤是[0:1],把-1的轉成1了。 X, y = make_hastie_10_2(random_state=0) X = DataFrame(X) y = DataFrame(y) y.columns={"label"} label={-1:0,1:1} y.label=y.label.map(label) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)#劃分資料集
第二步:分別使用兩個介面進行訓練和預測。兩種介面的引數完全一樣。
#XGBoost自帶介面 params={ 'eta': 0.3, 'max_depth':3, 'min_child_weight':1, 'gamma':0.3, 'subsample':0.8, 'colsample_bytree':0.8, 'booster':'gbtree', 'objective': 'binary:logistic', 'nthread':12, 'scale_pos_weight': 1, 'lambda':1, 'seed':27, 'silent':0 , 'eval_metric': 'auc' } d_train = xgb.DMatrix(X_train, label=y_train) d_valid = xgb.DMatrix(X_test, label=y_test) d_test = xgb.DMatrix(X_test) watchlist = [(d_train, 'train'), (d_valid, 'valid')] #sklearn介面 clf = XGBClassifier( n_estimators=30,#三十棵樹 learning_rate =0.3, max_depth=3, min_child_weight=1, gamma=0.3, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=12, scale_pos_weight=1, reg_lambda=1, seed=27) print("XGBoost_自帶介面進行訓練:") model_bst = xgb.train(params, d_train, 30, watchlist, early_stopping_rounds=500, verbose_eval=10) print("XGBoost_sklearn介面進行訓練:") model_sklearn=clf.fit(X_train, y_train) y_bst= model_bst.predict(d_test) y_sklearn= clf.predict_proba(X_test)[:,1]
第三步:評估結果
print("XGBoost_自帶介面 AUC Score : %f" % metrics.roc_auc_score(y_test, y_bst)) print("XGBoost_sklearn介面 AUC Score : %f" % metrics.roc_auc_score(y_test, y_sklearn)) # 將概率值轉化為0和1 y_bst = pd.DataFrame(y_bst).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1) y_sklearn = pd.DataFrame(y_sklearn).apply(lambda row: 1 if row[0]>=0.5 else 0, axis=1) print("XGBoost_自帶介面 AUC Score : %f" % metrics.accuracy_score(y_test, y_bst)) print("XGBoost_sklearn介面 AUC Score : %f" % metrics.accuracy_score(y_test, y_sklearn)) ''' XGBoost_自帶介面 AUC Score : 0.970292 XGBoost_sklearn介面 AUC Score : 0.970292 XGBoost_自帶介面 AUC Score : 0.897917 XGBoost_sklearn介面 AUC Score : 0.897917 '''
我們可以看到,在兩種介面的引數完全一樣的情況下,無論是評估AUC還是準確率,自帶的介面和sklearn介面的結果完全一樣!這說明,在我們平常實踐中,使用哪個介面都是可以的。