sklearn：決策分類樹_紅酒資料集

阿新 • • 發佈：2020-12-31

from sklearn import tree
from sklearn.datasets import load_wine  # 紅酒資料
from sklearn.model_selection import train_test_split

wine = load_wine()  # 匯入資料
wine

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2]),
 'target_names': array(['class_0', 'class_1', 'class_2'], dtype='<U7'),
 'DESCR': '......rics).\n',
 'feature_names': ['alcohol',
  'malic_acid',
  'ash',
  'alcalinity_of_ash',
  'magnesium',
  'total_phenols',
  'flavanoids',
  'nonflavanoid_phenols',
  'proanthocyanins',
  'color_intensity',
  'hue',
  'od280/od315_of_diluted_wines',
  'proline']}

import pandas as pd

# 將特徵資料與 target拼接起來
wine_df = pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)] ,axis=1)
wine_df.columns=list(wine.feature_names) + ['target']  # 將資料特徵名稱與資料對應
wine_df['target'] = wine_df['target'].map(dict(zip(range(3), wine.target_names)))  # 顯示類別名稱
wine_df

	alcohol	malic_acid	ash	alcalinity_of_ash	magnesium	total_phenols	flavanoids	nonflavanoid_phenols	proanthocyanins	color_intensity	hue	od280/od315_of_diluted_wines	proline	target
0	14.23	1.71	2.43	15.6	127.0	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065.0	class_0
1	13.20	1.78	2.14	11.2	100.0	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050.0	class_0
2	13.16	2.36	2.67	18.6	101.0	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185.0	class_0
3	14.37	1.95	2.50	16.8	113.0	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480.0	class_0
4	13.24	2.59	2.87	21.0	118.0	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735.0	class_0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
173	13.71	5.65	2.45	20.5	95.0	1.68	0.61	0.52	1.06	7.70	0.64	1.74	740.0	class_2
174	13.40	3.91	2.48	23.0	102.0	1.80	0.75	0.43	1.41	7.30	0.70	1.56	750.0	class_2
175	13.27	4.28	2.26	20.0	120.0	1.59	0.69	0.43	1.35	10.20	0.59	1.56	835.0	class_2
176	13.17	2.59	2.37	20.0	120.0	1.65	0.68	0.53	1.46	9.30	0.60	1.62	840.0	class_2
177	14.13	4.10	2.74	24.5	96.0	2.05	0.76	0.56	1.35	9.20	0.61	1.60	560.0	class_2

178 rows × 14 columns

# 拆分資料為：訓練集和測試集
X_train, X_test, Y_train, Y_test = train_test_split(wine.data, wine.target, test_size=0.3)

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test)  # 返回準確度
score

0.9444444444444444

import graphviz  # 需要提前安裝graphviz

dot_data = tree.export_graphviz(clf
    ,feature_names = wine.feature_names  # 特徵名
    ,class_names = wine.target_names  # 標籤名
    ,filled = True  # 顏色填充
    ,rounded = True  # 圓角邊框
)

graph = graphviz.Source(dot_data)
graph

clf.feature_importances_  # 檢視各特徵的重要性，沒有被使用的特徵 重要性為0

array([0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.3918564 , 0.        , 0.        , 0.1160134 ,
       0.02128596, 0.        , 0.47084424])

dict(zip(wine.feature_names, clf.feature_importances_))  # 將特徵名稱與重要性對應

{'alcohol': 0.0,
 'malic_acid': 0.0,
 'ash': 0.0,
 'alcalinity_of_ash': 0.0,
 'magnesium': 0.0,
 'total_phenols': 0.0,
 'flavanoids': 0.26190367697120653,
 'nonflavanoid_phenols': 0.0,
 'proanthocyanins': 0.0,
 'color_intensity': 0.11601339710491781,
 'hue': 0.0,
 'od280/od315_of_diluted_wines': 0.15123868318487035,
 'proline': 0.47084424273900527}

增加決策樹隨機性

決策樹的隨機性在高維度的資料集中表現的會比較好
在低維度資料集（比如鳶尾花資料集中），隨機性就表現得不夠好

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50  # 隨機種子
                                  # splitter：預設是best，就是上面的重要性。雖然隨機，但是還是選擇最重要的。
                                  # random讓決策樹更加隨機，樹會更大更深
                                  ,splitter="random"  
                                 )
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test)  # 返回準確度
score

0.8888888888888888

import graphviz
dot_data = tree.export_graphviz(clf
    ,feature_names = wine.feature_names  # 特徵名
    ,class_names = wine.target_names  # 標籤名
    ,filled = True  # 顏色填充
    ,rounded = True  # 圓角邊框
)

graph = graphviz.Source(dot_data)
graph

剪枝引數：min_samples_leaf & min_samples_split

為了使決策樹具有更大的泛化能力
限制樹的最大深度，建議從3開始逐漸嘗試
限制葉子節點數量
限制劃分節點數量

import graphviz

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50
                                  ,splitter="random"
                                  ,max_depth = 3
                                  ,min_samples_leaf=10  # 將樣本數量小於10的葉子節點剪掉
                                  ,min_samples_split=10  # 將中間節點樣本數量小於10的剪掉
                                 )
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test)  # 返回準確度
print(score)
dot_data = tree.export_graphviz(clf
    ,feature_names = wine.feature_names  # 特徵名
    ,class_names = wine.target_names  # 標籤名
    ,filled = True  # 顏色填充
    ,rounded = True  # 圓角邊框
)

graph = graphviz.Source(dot_data)
graph

0.8518518518518519

max_features & min_impurity_decrease

max_features：最大特徵數量限制，超過限制的特徵會被捨棄，是一種降維方式，使用較少
min_impurity_decrease：限制資訊增益大小，當資訊增益小於這個值，就不再進行分支了

import graphviz

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50
#                                   ,splitter="random"
                                  ,max_depth = 5
#                                   ,min_samples_leaf=10  # 將樣本數量小於10的葉子節點剪掉
#                                   ,min_samples_split=10  # 將中間節點樣本數量小於10的剪掉
#                                   ,max_features = 2
                                  ,min_impurity_decrease=0.1
                                 )
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test)  # 返回準確度
print(score)
dot_data = tree.export_graphviz(clf
    ,feature_names = wine.feature_names  # 特徵名
    ,class_names = wine.target_names  # 標籤名
    ,filled = True  # 顏色填充
    ,rounded = True  # 圓角邊框
)

graph = graphviz.Source(dot_data)
graph

0.9444444444444444

確認最優引數，畫學習曲線

import  matplotlib.pyplot as plt

deths_rt = []

for dep in range(1, 10):
    clf = tree.DecisionTreeClassifier(criterion="entropy"
                                      ,max_depth = dep
                                     )
    clf = clf.fit(X_train, Y_train)
    score = clf.score(X_test, Y_test)  # 返回準確度
    deths_rt.append(score)

plt.plot(range(1, 10), deths_rt)

目標權重引數

class_weight & min_weight_fraction_leaf
注意：sklearn不接受一維矩陣

class_weight  # 目標型別的權重，其資料型別為dict或者列表內的dict，或者為"balanced"

min_weight_fraction_leaf  # 權重剪枝引數，搭配目標權重使用，比min_samples_leaf更偏向於主導類

其他常用介面

# 返回樣本所在葉子節點的索引
clf.apply(X_test)

array([ 5,  5,  5,  4,  3,  5,  5,  5,  5, 10, 10,  5,  5,  3, 10, 10, 10,
        5,  4,  5, 10,  4,  5, 10,  5,  5,  4,  5,  4,  4,  5,  4,  4, 10,
       10,  5,  4,  5,  5,  5,  4, 10, 10, 10,  5,  5, 10,  4, 10, 10,  5,
        5,  5, 10], dtype=int64)

# 返回預測標籤
clf.predict(X_test

array([1, 1, 1, 2, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 2, 1, 0, 2,
       1, 0, 1, 1, 2, 1, 2, 2, 1, 2, 2, 0, 0, 1, 2, 1, 1, 1, 2, 0, 0, 0,
       1, 1, 0, 2, 0, 0, 1, 1, 1, 0])

sklearn：決策分類樹_紅酒資料集

from sklearn import tree from sklearn.datasets import load_wine# 紅酒資料 from sklearn.model_selection import train_test_split

sklearn：隨機森林_分類器_紅酒資料集

from sklearn.datasets import load_wine from sklearn.ensemble import RandomForestClassifier from sklearn.tree import DecisionTreeClassifier

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

我們在紅酒資料集上畫出了一棵樹，並且展示了多個引數會對樹形成這樣的影響，接下來，我們將在不同結構的資料集上測試一下決策樹的效果，讓大家更好地理解決策樹。

決策樹例項load_wine資料集

技術標籤：sklearnpython決策樹決策樹例項-紅酒資料集無引數模型 from sklearn import tree

使用Scikit Learn的分類器探索Iris資料集

作者|Dehao Zhang 編譯|VK 來源|Towards Data Science 暫時，想象一下你不是一個花卉專家（如果你是專家，那對你很好！）。你能區分三種不同的鳶尾屬植物嗎？剛毛鳶尾屬，花色鳶尾屬和維吉尼亞鳶尾屬（setosa, vers

使用KNN分類器對MNIST資料集進行分類

MNIST資料集包含了70000張0~9的手寫數字影象。一、準備工作：匯入MNIST資料集 1 import sys

C#中的深度學習（二）：預處理識別硬幣的資料集

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

將sklearn包datasets中的iris 鳶尾花資料集轉為dataframe

技術標籤：路漫漫python 將sklearn包datasets中的iris 鳶尾花資料集轉為dataframe 讀取鳶尾花資料集

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

原文連結：http://tecdat.cn/?p=17950 在本文中，我們使用了邏輯迴歸、決策樹和隨機森林模型來對信用資料集進行分類預測並比較了它們的效能。資料集是

sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

分類樹和迴歸樹引數差別： criterion 分類：使用資訊增益，迴歸：均方誤差MSE，使用均值。mse是父節點與葉子節點之間的均方誤差，用來選擇特徵。同時也是用於衡量模型質量的指標。均方誤差是正的，但是sklear

決策樹演算法對鳶尾花資料集進行分類

①匯入相關擴充套件包 from sklearn.tree import DecisionTreeClassifier from sklearn.tree import export_graphviz

資料分析：決策樹

引言高二（1）班的小明同學和小方同學為了準備即將進行的校園羽毛球大賽，準備近一個月的時間去練習打球。不過，並不是每一天都適合練球。通常，小明和小方需要考慮一些因素來決定今天是否適合打羽毛球，比如

python使用sklearn實現決策樹的方法示例

1. 基本環境安裝 anaconda 環境，由於國內登陸不了他的官網 https://www.continuum.io/downloads,不過可以使用國內的映象站點： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

資料結構與演算法（十一）：二叉樹

一、什麼是二叉樹 1.概述首先，需要了解樹這種資料結構的定義：樹：是一類重要的非線性資料結構，是以分支關係定義的層次結構。每個結點有零個或多個子結點；沒有父結點的結點稱為根結點；每一個非根結點有且只有

機器學習：決策樹

table { margin: auto; } 決策樹是機器學習中非常基礎的演算法，也是我研究生生涯學習到的第一個有監督模型，其中最基礎的ID3是1986年被髮表出來的，一經發表，之後出現了眾多決策樹演算法，不過最常見的還是C4.5和

吐血整理：二叉樹、紅黑樹、B&B+樹超齊全，快速搞定資料結構

前言沒有必要過度關注本文中二叉樹的增刪改導致的結構改變，規則操作什麼的瞭解一下就好，看不下去就跳過，本文過多的XX樹操作圖片純粹是為了作為規則記錄，該文章主要目的是增強下個人對各種常用XX樹的設計及緣由

【tensorflow】搭建_Fashion資料集_神經網路模型：Sequential() / 神經網路類class 兩種方法

FASHION 資料集一共有 7 萬張圖片，每張圖片都是 28x28 畫素點的灰度值資料，其中 6 萬張用於訓練，1 萬張用於測試。

資料結構時間複雜度_白話資料結構和演算法02：3分鐘搞明白，什麼是大O時間複雜度，如何計算大O時間複雜度...

技術標籤：資料結構時間複雜度關注公眾號：程式設計師成長軟技能。日拱一卒，功不唐捐！

python匯入dat資料_電影影評資料集實戰分析1：匯入資料

技術標籤：python匯入dat資料python匯入scikit-learn資料集 1 瞭解資料資料來自kaggle，共包括三個檔案：

超出 int64_t 最大範圍_解LeetCode第662題：二叉樹最大寬度

技術標籤：超出 int64_t 最大範圍題目描述（難度中等）給定一個二叉樹，編寫一個函式來獲取這個樹的最大寬度。樹的寬度是所有層中的最大寬度。這個二叉樹與滿二叉樹（full binary tree）結構相同，但一些節點

sklearn：決策分類樹_紅酒資料集

增加決策樹隨機性

剪枝引數：min_samples_leaf & min_samples_split

max_features & min_impurity_decrease

確認最優引數，畫學習曲線

目標權重引數

其他常用介面

相關推薦