資料探勘演算法和實踐（二十三）：XGBoost整合演算法案列（鳶尾花資料集）

阿新 • • 發佈：2021-01-24

本節繼續探討整合學習演算法，上一節介紹的是LGB的使用和調參，這裡使用datasets自帶的鳶尾花資料集介紹XGB，關於整合學習演算法的介紹可以參考：資料探勘演算法和實踐（十八）：整合學習演算法（Boosting、Bagging），XGB和LGB都是競賽和真實場景用得很多的演算法，這裡詳細分析XGB調參和特徵選擇；

一、引包與載入資料

import time
import numpy as np
import xgboost as xgb
from xgboost import plot_importance,plot_tree
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_boston
import matplotlib
import matplotlib.pyplot as plt
import os
%matplotlib inline

# 載入樣本資料集
iris = load_iris()
X,y = iris.data,iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234565) # 資料集分割

二、建模和引數

# 訓練演算法引數設定
params = {
    # 通用引數
    'booster': 'gbtree', # 使用的弱學習器,有兩種選擇gbtree（預設）和gblinear,gbtree是基於
                        # 樹模型的提升計算，gblinear是基於線性模型的提升計算
    'nthread': 4, # XGBoost執行時的執行緒數，預設時是當前系統獲得的最大執行緒數
    'silent':0, # 0：表示列印執行時資訊，1：表示以緘默方式執行，預設為0
    'num_feature':4, # boosting過程中使用的特徵維數
    'seed': 1000, # 隨機數種子
    # 任務引數
    'objective': 'multi:softmax', # 多分類的softmax,objective用來定義學習任務及相應的損失函式
    'num_class': 3, # 類別總數
    # 提升引數
    'gamma': 0.1, # 葉子節點進行劃分時需要損失函式減少的最小值
    'max_depth': 6, # 樹的最大深度，預設值為6，可設定其他值
    'lambda': 2, # 正則化權重
    'subsample': 0.7, # 訓練模型的樣本佔總樣本的比例，用於防止過擬合
    'colsample_bytree': 0.7, # 建立樹時對特徵進行取樣的比例
    'min_child_weight': 3, # 葉子節點繼續劃分的最小的樣本權重和
    'eta': 0.1, # 加法模型中使用的收縮步長   
    
}
plst = params.items()


# 資料集格式轉換
dtrain = xgb.DMatrix(X_train, y_train)
dtest = xgb.DMatrix(X_test)

# 迭代次數，對於分類問題，每個類別的迭代次數，所以總的基學習器的個數 = 迭代次數*類別個數
num_rounds = 50
model = xgb.train(plst, dtrain, num_rounds) # xgboost模型訓練

# 對測試集進行預測
y_pred = model.predict(dtest)

# 計算準確率
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))

# 顯示重要特徵
plot_importance(model)
plt.show()

三、模型評估

# 視覺化樹的生成情況，num_trees是樹的索引
plot_tree(model, num_trees=5) 

# 將基學習器輸出到txt檔案中
model.dump_model("model1.txt")

XGB的迴歸問題

# 載入資料集
boston = load_boston()
# 獲取特徵值和目標指
X,y = boston.data,boston.target
# 獲取特徵名稱
feature_name = boston.feature_names

# 劃分資料集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 引數設定
params = {
        'booster': 'gbtree',
        'objective': 'reg:gamma', # 迴歸的損失函式，gmma迴歸
        'gamma': 0.1,
        'max_depth': 5,
        'lambda': 3,
        'subsample': 0.7,
        'colsample_bytree': 0.7,
        'min_child_weight': 3,
        'silent': 1,
        'eta': 0.1,
        'seed': 1000,
        'nthread': 4,
    }
plst = params.items()


# 資料集格式轉換
dtrain = xgb.DMatrix(X_train, y_train,feature_names = feature_name)
dtest = xgb.DMatrix(X_test,feature_names = feature_name)

# 模型訓練
num_rounds = 30
model = xgb.train(plst, dtrain, num_rounds)

# 模型預測
y_pred = model.predict(dtest)

# 顯示重要特徵
plot_importance(model,importance_type ="weight")
plt.show()

# 視覺化樹的生成情況，num_trees是樹的索引
plot_tree(model, num_trees=17) 

# 將基學習器輸出到txt檔案中
model.dump_model("model2.txt")

資料探勘演算法和實踐（二十三）：XGBoost整合演算法案列（鳶尾花資料集）

技術標籤：機器學習/資料探勘實戰python機器學習深度學習人工智慧演算法本節繼續探討整合學習演算法，上一節介紹的是LGB的使用和調參，這裡使用datasets自帶的鳶尾花資料集介紹XGB，關於整合學習演算法的介紹可

資料探勘演算法和實踐（二十二）：LightGBM整合演算法案列（癌症資料集）

技術標籤：機器學習/資料探勘實戰Python與資料分析資料探勘機器學習python人工智慧演算法

資料探勘演算法和實踐（二十）：sklearn中通用資料集datasets

技術標籤：機器學習/資料探勘實戰資料探勘機器學習資料分析python 作為資料探勘工具包sklearn不但提供演算法實現，還通過sklearn.datasets模組提供資料集使用，根據需要有3種資料集API介面來獲取資料集，分別是

一文弄懂資料探勘的十大演算法，資料探勘演算法原理講解

一個優秀的資料分析師不僅要掌握基本的統計、資料庫、資料分析方法、思維、資料分析工具和技能，還要掌握一些資料探勘的思路，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。

資料結構--資料探勘演算法

資料探勘就是應用一系列技術從大型資料庫或資料倉庫中提取人們感興趣的資訊和知識，這些知識或資訊是隱含的，事先未知而潛在有用的，提取的知識表示為概念、規則、規律、模式等形式。

資料探勘透露《馬里奧賽車8：豪華版》新DLC賽道資訊

有玩家對《馬里奧賽車8：豪華版》最新升級檔進行資料探勘，發現了一些官方尚未公佈的DLC賽道資訊。

資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

簡介又叫K-鄰近演算法，是監督學習中的一種分類演算法。目的是根據已知類別的樣本點集求出待分類的資料點類別。

資料探勘領域十大經典演算法之—AdaBoost演算法（超詳細附程式碼）

相關文章：資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）資料探勘領域十大經典演算法之—K-Means演算法（超詳細附程式碼）資料探勘領域十大經典演算法之—SVM演算法（超詳細附程式碼）資料探勘領域

C#資料結構與算法系列（二十三）：歸併排序演演算法（MergeSort）

1.介紹歸併排序(MergeSort)是利用歸併的思想實現的排序方法，該演演算法採用經典的分治策略(分治法將問題分(divide)成一些小的問題然後遞迴求解，

C#資料結構與算法系列（二十三）：歸併排序演算法（MergeSort）

1.介紹歸併排序(MergeSort)是利用歸併的思想實現的排序方法，該演算法採用經典的分治策略(分治法將問題分(divide)成一些小的問題然後遞迴求解，

資料探勘-空間模糊挖掘演算法

import utils sum_list = utils.load_data_set(r\"05.xlsx\") FNR = utils.get_fuzzy_neighbor_relationship(sum_list)

對商品的評論進行資料探勘得到評論標籤（商品屬性+評論觀點），以及使用者的分組資訊

技術標籤：ppython自然語言處理觀點抽取評論資料ltp依存分析對商品的評論進行資料探勘得到評論標籤（商品屬性+評論觀點），以及使用者的分組資訊：

資料探勘Apriori演算法JAVA實現

技術標籤：java演算法資料探勘Apriori關聯規則實驗結果最小支援度為0.005時只需10s即可得到結果並且輸出所有頻繁項集

資料探勘FPGrowth演算法JAVA實現

技術標籤：java演算法FPGrowth資料探勘關聯規則實驗結果最小支援度0.001條件下可以得到準確結果，僅用1.6s 最小可以支援最小支援度為0.0003的計算

機器學習&資料探勘筆記_15（關於凸優化的一些簡單概念）

　　沒有系統學過數學優化，但是機器學習中又常用到這些工具和技巧，機器學習中最常見的優化當屬凸優化了，這些可以參考Ng的教學資料：http://cs229.stanford.edu/section/cs229-cvxopt.pdf，從中我們可以大致瞭解到

資料探勘的10大演算法我用大白話講清楚了，新手一看就懂

一個優秀的資料分析師，除了要掌握基本的統計學、資料庫、資料分析方法、思維、資料分析工具技能之外，還需要掌握一些資料探勘的思想，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。

HCIE資料探勘筆記—004資料探勘（入門）

資料探勘流程： 1、SPSS的CRISP-DM模型：　　商業理解　　資料理解　　資料準備　　建立模型　　模型評估　　模型實施

資料探勘、機器學習、深度學習和人工智慧概念

機器學習可以簡單解釋為使用一些演算法從資料中分析出某種規律，然後利用這一規律對未知資料進行預測，所以機器學習不是手動編寫某種程式去完成一個任務，而是使用大量的資料和演算法來“訓練”機器，讓機器通過“

Thinking in SQL系列之：資料探勘K均值聚類演算法與城市分級

引言：SQL做為一種程式語言，能夠滿足各類資料處理的需要，關鍵就在於演算法與思維方式。以SQL會友，希望結交更多的資料庫、資料分析領域的朋友。

跟我一起資料探勘（20）——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術，對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理，從而發現Web使用者的訪問模式和興趣愛好等，這些資訊對站點建設潛在有用的可理解的未知資訊和知識

資料探勘演算法和實踐（二十三）：XGBoost整合演算法案列（鳶尾花資料集）

相關推薦