資料探勘演算法和實踐（二十二）：LightGBM整合演算法案列（癌症資料集）

阿新 • • 發佈：2021-01-24

技術標籤：機器學習/資料探勘實戰 Python與資料分析資料探勘機器學習 python 人工智慧演算法

本節使用datasets資料集中的癌症資料集使用LightGBM進行建模的簡單案列，關於整合學習的學習可以參考：資料探勘演算法和實踐（十八）：整合學習演算法（Boosting、Bagging），LGBM是一個非常常用演算法；

一、引入常用包

import datetime
import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
%matplotlib inline

二、載入資料集

# 載入資料集
breast = load_breast_cancer()
# 獲取特徵值和目標指
X,y = breast.data,breast.target
# 獲取特徵名稱
feature_name = breast.feature_names

三、資料預處理

資料是比較標準的玩具資料，因此不需要複雜的資料預處理；

# 資料集劃分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 資料格式轉換
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

四、建模和引數

# 引數設定
boost_round = 50 # 迭代次數              
early_stop_rounds = 10 # 驗證資料若在early_stop_rounds輪中未提高，則提前停止

params = {
    'boosting_type': 'gbdt',  # 設定提升型別
    'objective': 'regression',  # 目標函式
    'metric': {'l2', 'auc'},  # 評估函式
    'num_leaves': 31,  # 葉子節點數
    'learning_rate': 0.05,  # 學習速率
    'feature_fraction': 0.9,  # 建樹的特徵選擇比例
    'bagging_fraction': 0.8,  # 建樹的樣本取樣比例
    'bagging_freq': 5,  # k 意味著每 k 次迭代執行bagging
    'verbose': 1  # <0 顯示致命的, =0 顯示錯誤 (警告), >0 顯示資訊
}

# 模型訓練:加入提前停止的功能
results = {}
gbm = lgb.train(params,
                lgb_train,
                num_boost_round= boost_round,
                valid_sets=(lgb_eval, lgb_train),
                valid_names=('validate','train'),
                early_stopping_rounds = early_stop_rounds,
                evals_result= results)

訓練結果：

[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.001093 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4548
[LightGBM] [Info] Number of data points in the train set: 455, number of used features: 30
[LightGBM] [Info] Start training from score 0.637363
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[1]	train's auc: 0.984943	train's l2: 0.21292	validate's auc: 0.98825	validate's l2: 0.225636
Training until validation scores don't improve for 10 rounds
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[2]	train's auc: 0.990805	train's l2: 0.196278	validate's auc: 0.992855	validate's l2: 0.208124
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[3]	train's auc: 0.990324	train's l2: 0.181505	validate's auc: 0.992379	validate's l2: 0.192562
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[4]	train's auc: 0.990439	train's l2: 0.168012	validate's auc: 0.993966	validate's l2: 0.178022
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[5]	train's auc: 0.990376	train's l2: 0.15582	validate's auc: 0.993014	validate's l2: 0.164942
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[6]	train's auc: 0.990752	train's l2: 0.144636	validate's auc: 0.993649	validate's l2: 0.152745
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[7]	train's auc: 0.991641	train's l2: 0.134404	validate's auc: 0.993331	validate's l2: 0.142248
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[8]	train's auc: 0.992571	train's l2: 0.124721	validate's auc: 0.992379	validate's l2: 0.132609
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[9]	train's auc: 0.992884	train's l2: 0.116309	validate's auc: 0.991743	validate's l2: 0.123573
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[10]	train's auc: 0.992989	train's l2: 0.108757	validate's auc: 0.992696	validate's l2: 0.115307
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[11]	train's auc: 0.993156	train's l2: 0.101871	validate's auc: 0.991743	validate's l2: 0.108458
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[12]	train's auc: 0.99348	train's l2: 0.0954168	validate's auc: 0.99222	validate's l2: 0.101479
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[13]	train's auc: 0.993396	train's l2: 0.0897573	validate's auc: 0.99222	validate's l2: 0.0956762
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[14]	train's auc: 0.993605	train's l2: 0.0846034	validate's auc: 0.992855	validate's l2: 0.0898012
Early stopping, best iteration is:
[4]	train's auc: 0.990439	train's l2: 0.168012	validate's auc: 0.993966	validate's l2: 0.178022

五、模型應用和評估

# 模型預測
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
y_pred

# 模型評估
lgb.plot_metric(results)
plt.show()

# 繪製重要的特徵
lgb.plot_importance(gbm,importance_type = "split")
plt.show()

資料探勘演算法和實踐（二十二）：LightGBM整合演算法案列（癌症資料集）

技術標籤：機器學習/資料探勘實戰Python與資料分析資料探勘機器學習python人工智慧演算法

資料探勘演算法和實踐（二十三）：XGBoost整合演算法案列（鳶尾花資料集）

技術標籤：機器學習/資料探勘實戰python機器學習深度學習人工智慧演算法本節繼續探討整合學習演算法，上一節介紹的是LGB的使用和調參，這裡使用datasets自帶的鳶尾花資料集介紹XGB，關於整合學習演算法的介紹可

資料探勘演算法和實踐（二十）：sklearn中通用資料集datasets

技術標籤：機器學習/資料探勘實戰資料探勘機器學習資料分析python 作為資料探勘工具包sklearn不但提供演算法實現，還通過sklearn.datasets模組提供資料集使用，根據需要有3種資料集API介面來獲取資料集，分別是

一文弄懂資料探勘的十大演算法，資料探勘演算法原理講解

一個優秀的資料分析師不僅要掌握基本的統計、資料庫、資料分析方法、思維、資料分析工具和技能，還要掌握一些資料探勘的思路，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。

資料結構--資料探勘演算法

資料探勘就是應用一系列技術從大型資料庫或資料倉庫中提取人們感興趣的資訊和知識，這些知識或資訊是隱含的，事先未知而潛在有用的，提取的知識表示為概念、規則、規律、模式等形式。

資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

簡介又叫K-鄰近演算法，是監督學習中的一種分類演算法。目的是根據已知類別的樣本點集求出待分類的資料點類別。

資料探勘領域十大經典演算法之—AdaBoost演算法（超詳細附程式碼）

相關文章：資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）資料探勘領域十大經典演算法之—K-Means演算法（超詳細附程式碼）資料探勘領域十大經典演算法之—SVM演算法（超詳細附程式碼）資料探勘領域

C#資料結構與算法系列（二十二）：快速排序演演算法（QuickSort）

1.介紹快速排序（QuickSort）是對氣泡排序的一種改進，基本思想是：通過一趟排序將要排序的資料分割成獨立的兩部分，

資料探勘-空間模糊挖掘演算法

import utils sum_list = utils.load_data_set(r\"05.xlsx\") FNR = utils.get_fuzzy_neighbor_relationship(sum_list)

對商品的評論進行資料探勘得到評論標籤（商品屬性+評論觀點），以及使用者的分組資訊

技術標籤：ppython自然語言處理觀點抽取評論資料ltp依存分析對商品的評論進行資料探勘得到評論標籤（商品屬性+評論觀點），以及使用者的分組資訊：

資料探勘Apriori演算法JAVA實現

技術標籤：java演算法資料探勘Apriori關聯規則實驗結果最小支援度為0.005時只需10s即可得到結果並且輸出所有頻繁項集

資料探勘FPGrowth演算法JAVA實現

技術標籤：java演算法FPGrowth資料探勘關聯規則實驗結果最小支援度0.001條件下可以得到準確結果，僅用1.6s 最小可以支援最小支援度為0.0003的計算

機器學習&資料探勘筆記_15（關於凸優化的一些簡單概念）

　　沒有系統學過數學優化，但是機器學習中又常用到這些工具和技巧，機器學習中最常見的優化當屬凸優化了，這些可以參考Ng的教學資料：http://cs229.stanford.edu/section/cs229-cvxopt.pdf，從中我們可以大致瞭解到

資料探勘的10大演算法我用大白話講清楚了，新手一看就懂

一個優秀的資料分析師，除了要掌握基本的統計學、資料庫、資料分析方法、思維、資料分析工具技能之外，還需要掌握一些資料探勘的思想，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。

HCIE資料探勘筆記—004資料探勘（入門）

資料探勘流程： 1、SPSS的CRISP-DM模型：　　商業理解　　資料理解　　資料準備　　建立模型　　模型評估　　模型實施

資料探勘、機器學習、深度學習和人工智慧概念

機器學習可以簡單解釋為使用一些演算法從資料中分析出某種規律，然後利用這一規律對未知資料進行預測，所以機器學習不是手動編寫某種程式去完成一個任務，而是使用大量的資料和演算法來“訓練”機器，讓機器通過“

Thinking in SQL系列之：資料探勘K均值聚類演算法與城市分級

引言：SQL做為一種程式語言，能夠滿足各類資料處理的需要，關鍵就在於演算法與思維方式。以SQL會友，希望結交更多的資料庫、資料分析領域的朋友。

跟我一起資料探勘（20）——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術，對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理，從而發現Web使用者的訪問模式和興趣愛好等，這些資訊對站點建設潛在有用的可理解的未知資訊和知識

跟我一起資料探勘（21）——redis

什麼是Redis Redis是一個開源的使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫，並提供多種語言的API。從2010年3月15日起，Redis的開發工作由VMware主持。從2013年5月開始，Redis的

跟我一起資料探勘（22）——spark入門

Spark簡介 Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的並行，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫HDFS，因此S

資料探勘演算法和實踐（二十二）：LightGBM整合演算法案列（癌症資料集）

一、引入常用包

二、載入資料集

三、資料預處理

四、建模和引數

五、模型應用和評估

相關推薦