1. 程式人生 > >xgboost中XGBClassifier()參數詳解

xgboost中XGBClassifier()參數詳解

運算 參數 似然 amp mat loss www div com

http://www.cnblogs.com/wanglei5205/p/8579244.html

常規參數

booster
    gbtree 樹模型做為基分類器(默認)
    gbliner 線性模型做為基分類器
silent
    silent=0時,不輸出中間過程(默認)
    silent=1時,輸出中間過程
nthread
    nthread=-1時,使用全部CPU進行並行運算(默認)
    nthread=1時,使用1個CPU進行運算。
scale_pos_weight
    正樣本的權重,在二分類任務中,當正負樣本比例失衡時,設置正樣本的權重,模型效果更好。例如,當正負樣本比例為1:10時,scale_pos_weight
=10

模型參數

n_estimatores
    含義:總共叠代的次數,即決策樹的個數
    調參:
early_stopping_rounds
    含義:在驗證集上,當連續n次叠代,分數沒有提高後,提前終止訓練。
    調參:防止overfitting。
max_depth
    含義:樹的深度,默認值為6,典型值3-10。
    調參:值越大,越容易過擬合;值越小,越容易欠擬合。
min_child_weight
    含義:默認值為1,。
    調參:值越大,越容易欠擬合;值越小,越容易過擬合(值較大時,避免模型學習到局部的特殊樣本)。
subsample
    含義:訓練每棵樹時,使用的數據占全部訓練集的比例。默認值為1,典型值為0.
5-1。 調參:防止overfitting。 colsample_bytree 含義:訓練每棵樹時,使用的特征占全部特征的比例。默認值為1,典型值為0.5-1。 調參:防止overfitting。

學習任務參數

learning_rate
    含義:學習率,控制每次叠代更新權重時的步長,默認0.3。
    調參:值越小,訓練越慢。
    典型值為0.01-0.2。
objective 目標函數
    回歸任務
        reg:linear (默認)
        reg:logistic 
    二分類
        binary:logistic     概率 
        binary:logitraw   類別
    多分類
        multi:softmax  num_class
=n 返回類別 multi:softprob num_class=n 返回概率 rank:pairwise eval_metric 回歸任務(默認rmse) rmse--均方根誤差 mae--平均絕對誤差 分類任務(默認error) auc--roc曲線下面積 error--錯誤率(二分類) merror--錯誤率(多分類) logloss--負對數似然函數(二分類) mlogloss--負對數似然函數(多分類) gamma 懲罰項系數,指定節點分裂所需的最小損失函數下降值。 調參: alpha L1正則化系數,默認為1 lambda L2正則化系數,默認為1

xgboost中XGBClassifier()參數詳解