XGBoost 模型引數解釋

阿新 • • 發佈：2018-12-15

上篇博文介紹了xgboost這個演算法的推導，下面我們在調包使用這個演算法的時候，有一些引數是需要我們理解的。

這裡先講怎麼呼叫xgboost這個包進行運算首先先引入這個包和資料（包可以用pip install xgboost進行下載）

import pandas as pd
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
data = pd.read_csv('pima-indians-diabetes.csv',header=None)
X = data.iloc[:,0:8]
y = data.iloc[:,8]
test_size = 0.33
X_train , X_test , y_train , y_test = train_test_split(X,y,test_size = test_size,random_state = 7)

下面可以呼叫模型，fit函式一些引數的意思

early_stopping_rounds：在連續加入五棵樹之後，每一次模型的損失函式都沒有下降，這時候停止加樹，有監控作用
eval_metric：我們所選擇的損失函式
eval_set：進行測試的資料集

model = XGBClassifier()
eval_set = [(X_test, y_test)]
model.fit(X_train,y_train,early_stopping_rounds=5,eval_metric="logloss",eval_set=eval_set)
y_pred = model.predict(X_test)
score = accuracy_score(y_test, y_pred)
print(score)

結果見下圖：

[0]	validation_0-logloss:0.660186
Will train until validation_0-logloss hasn't improved in 5 rounds.
[1]	validation_0-logloss:0.634854
[2]	validation_0-logloss:0.612239
[3]	validation_0-logloss:0.593118
[4]	validation_0-logloss:0.578303
[5]	validation_0-logloss:0.564942
[6]	validation_0-logloss:0.555113
[7]	validation_0-logloss:0.54499
[8]	validation_0-logloss:0.539151
[9]	validation_0-logloss:0.531819
[10]	validation_0-logloss:0.526065
[11]	validation_0-logloss:0.51977
[12]	validation_0-logloss:0.514979
[13]	validation_0-logloss:0.50927
[14]	validation_0-logloss:0.506086
[15]	validation_0-logloss:0.503565
[16]	validation_0-logloss:0.503591
[17]	validation_0-logloss:0.500805
[18]	validation_0-logloss:0.497605
[19]	validation_0-logloss:0.495328
[20]	validation_0-logloss:0.494777
[21]	validation_0-logloss:0.494274
[22]	validation_0-logloss:0.493333
[23]	validation_0-logloss:0.492211
[24]	validation_0-logloss:0.491936
[25]	validation_0-logloss:0.490578
[26]	validation_0-logloss:0.490895
[27]	validation_0-logloss:0.490646
[28]	validation_0-logloss:0.491911
[29]	validation_0-logloss:0.491407
[30]	validation_0-logloss:0.488828
[31]	validation_0-logloss:0.487867
[32]	validation_0-logloss:0.487297
[33]	validation_0-logloss:0.487562
[34]	validation_0-logloss:0.487788
[35]	validation_0-logloss:0.487962
[36]	validation_0-logloss:0.488218
[37]	validation_0-logloss:0.489582
Stopping. Best iteration:
[32]	validation_0-logloss:0.487297

0.7755905511811023

另外我們還可以通過呼叫xgboost裡面的plot_importance看看每個特徵的重要性：

from xgboost import plot_importance
from matplotlib import pyplot
plot_importance(model)
pyplot.show()

在這裡插入圖片描述

XGBoost 的引數

eta：和 GBM 中的 learning rate 引數類似。通過減少每一步的權重，可以提高模型的穩定性。典型值為 0.01-0.2。
min_child_weight：最小葉子節點權重和，如果在一次分裂中，葉子節點上所有樣本的權重和小於min_child_weight則停止分裂，能夠有效的防止過擬合，防止學到特殊樣本。
max_depth：樹的最大深度，典型值：3-10
max_leaf_nodes：樹上葉子節點數。
gamma ：懲罰項那個和葉子節點結合的項
subsample：每棵樹隨機取樣的樣本的比例，減小這個引數的值，演算法會更加保守，避免過擬合。但是，如果這個值設定得過小，它可能會導致欠擬合。典型值：0.5-1
colsample_bytree：用來控制每棵隨機取樣的列數的佔比 (每一列是一個特徵)。典型值：0.5-1
lambda：權重的 L2 正則化項。
alpha：權重的 L1 正則化項
objective：定義損失函式，常用的值 reg:linear –線性迴歸。 reg:logistic–邏輯迴歸。 binary:logistic –二分類的邏輯迴歸問題，輸出為概率。 multi:softmax –讓XGBoost採用softmax目標函式處理多分類問題，同時需要設定引數num_class（類別個數）

XGBoost 模型引數解釋

上篇博文介紹了xgboost這個演算法的推導，下面我們在調包使用這個演算法的時候，有一些引數是需要我們理解的。這裡先講怎麼呼叫xgboost這個包進行運算首先先引入這個包和資料（包可以用pip install xgboost進行下載） import pan

XGBoost：引數解釋

本文轉自：https://blog.csdn.net/zc02051126/article/details/46711047 在執行XGboost之前，必須設定三種類型成熟：general parameters，booster parameters和tas

Xgboost的引數解釋

XGBoost 引數在執行XGBoost程式之前，必須設定三種類型的引數：通用型別引數（general parameters）、booster引數和學習任務引數（task parameters）。一般型別引數general parameters –引數決

caffe模型引數的一些解釋

作者：wjmishuai 原始資料是28*28 1：資料層： layer { name: "mnist"//資料層的名字是mnist type: "Data"//這個層的型別是data top: "data"//產生兩個blob，一個是data blob

時間序列--ARIMA模型的一些引數解釋（cheatsheet）

1.solver：採用哪一種收斂演算法（不建議更改 2.disp：True會列印中間過程，我們直接設定False即可 3.transparam：預設是True，建議選擇true Whether or not to transform the parameters to ensure st

XGBoost模型的引數調優

XGBoost演算法在實際執行的過程中，可以通過以下要點進行引數調優：（1）新增正則項：　　　　在模型引數中新增正則項，或加大正則項的懲罰力度，即通過調整加權引數，從而避免模型出現過擬合的情況。（2）控制決策樹的層數: 通過葉子結點數目控制決策樹的層數，視乎樣本量大小決定，對於１０萬以下的樣

Xgboost引數解釋及調參

首先xgboost有兩種介面，xgboost自帶API和Scikit-Learn的API，具體用法有細微的差別但不大。在執行 XGBoost 之前, 我們必須設定三種類型的引數: （常規引數）general parameters，（提升器引數）boos

XGboost模型的優勢--引數作用--引數調優

最近接觸xgboost，但是對於這個模型框架我也是一知半解，每次用的時候，都是百度各種調參方法，因為用的是scala spark，各種配置檔案，不能對這個xgboost進行網格引數優化，因此只能手調引數，這是一個時間週期很長的事情。每次引數的作用啥的也記不住，這對我的工作產生

XGBoost-Python完全調參指南-引數解釋篇

在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,寫的很好。因此打算翻譯一下這篇文章，也讓自己有更深的印象。具體內容主要翻譯文章的關鍵意思。原文

SI9000常用共面阻抗模型的解釋

模型 -- 全面 mark 參考 size b2c 線路都是所謂的“共面”，即阻抗線和參考層在同一平面，即阻抗線被VCC/GND所包圍，周圍的VCC/GND即為參考層。相較於單端和差分阻抗模型，共面阻抗模型多了一個參數D1，即阻抗線和參考層VCC/GND之間的間距

用xgboost模型對特徵重要性進行排序

用xgboost模型對特徵重要性進行排序在這篇文章中，你將會學習到： xgboost對預測模型特徵重要性排序的原理（即為什麼xgboost可以對預測模型特徵重要性進行排序）。如何繪製xgboost模型得到的特徵重要性條形圖。如何根據xgboost模型得到的特徵重要性，

Android中Context引數解釋

context的作用，就是android應用連線service的橋樑。比如Activity中有經常會有可能呼叫到系統的service，使用getSystemService()方法，這個方法調到最後，實際上是呼叫的ContextImpl的getSystemSer

基於pytorch的儲存和載入模型引數

當我們花費大量的精力訓練完網路，下次預測資料時不想再（有時也不必再）訓練一次時，這時候torch.save(),torch.load()就要登場了。儲存和載入模型引數有兩種方式：方式一： torch.save(net.state_dict(),path): 功能

tensorflow.nn.conv2d引數解釋（padding方式）

conv2d的引數解釋： tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 除去name引數用以指定該操作的name，與方法有關的一共五個引數：第一個引數input：指需要

Tensorflow之模型引數的Saver儲存讀取

一、Saver儲存 import tensorflow as tf import numpy as np #定義W和b W = tf.Variable([[1,2,3],[3,5,6]],dtype = tf.float32,name = 'weight') b = tf.Variable([

pandas.describe 輸出引數解釋

import pandas as pd import numpy as np dates=pd.date_range('20081001',periods=7) df=pd.DataFrame(np.random.randn(7,4),index=dates,columns=list('ABC

mxnet-讀取模型引數

#!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Fri Aug 10 16:13:29 2018 @author: myhaspl """ import mxnet as mx from mxnet import nd from

crontab 定時執行命令，引數解釋，如何結合PHP artisan執行，crontab -e -l等分時日月周 commands

請認真閱讀下面文字： crontab命令用於安裝、刪除或者列出用於驅動cron後臺程序的表格。使用者把需要執行的命令序列放到crontab檔案中以獲得執行。每個使用者都可以有自己的crontab檔案。/var/spool/cron下的crontab檔案不可以直接

pytorch 求網路模型引數

用pytorch訓練一個神經網路時，我們通常會很關心模型的引數總量。下面分別介紹來兩種方法求模型引數一 .求得每一層的模型引數，然後自然的可以計算出總的引數。 1.先初始化一個網路模型model 比如我這裡是 model=cliqueNet(裡面是些初始化的引數） 2.呼叫mode

複習電商筆記-17-ngnix引數解釋和商品富文字編譯器（前端）

終極的解決方案-新SSO單點登入將session從系統中獨立出來。Apache shiro頂級安全框架，它的session管理就是獨立出來的。目前主流做法是利用redis作為session管理的實現，因為redis訪問極其快速。 upstream狀

XGBoost 模型 引數解釋

XGBoost 的引數

相關推薦

XGBoost 模型引數解釋