基於決策樹模型對 IRIS 資料集分類

阿新 • • 發佈：2018-11-25

基於決策樹模型對 IRIS 資料集分類

文章目錄

基於決策樹模型對 IRIS 資料集分類

1 python 實現

載入資料集
視覺化資料集
分類和預測
計算準確率

2 基於MATLAB 實現

1 python 實現

載入資料集

IRIS 資料集在 sklearn 模組中已經提供。

# -*- coding: utf-8 -*-

from matplotlib import pyplot as plt
import numpy as np
from 
 sklearn import tree
from sklearn.datasets import load_iris

if __name__ == '__main__':
    print('\n\n\n\n\n\n\n\n\n\n')

    # show data info
    data = load_iris() # 載入 IRIS 資料集
    print('keys: \n', data.keys()) # ['data', 'target', 'target_names', 'DESCR', 'feature_names']
    feature_names = data. 
get('feature_names')
    print('feature names: \n', data.get('feature_names')) # 檢視屬性名稱
    print('target names: \n', data.get('target_names')) # 檢視 label 名稱
    x = data.get('data') # 獲取樣本矩陣
    y = data.get('target') # 獲取與樣本對應的 label 向量
    print(x.shape, y.shape) # 檢視樣本資料
    print(data.get('DESCR' 
))

視覺化資料集

# visualize the data
    f = []
    f.append(y==0) # 類別為第一類的樣本的邏輯索引
    f.append(y==1) # 類別為第二類的樣本的邏輯索引
    f.append(y==2) # 類別為第三類的樣本的邏輯索引
    color = ['red','blue','green']
    fig, axes = plt.subplots(4,4) # 繪製四個屬性兩輛之間的散點圖
    for i, ax in enumerate(axes.flat):
        row  = i // 4
        col = i % 4
        if row == col:
            ax.text(.1,.5, feature_names[row])
            ax.set_xticks([])
            ax.set_yticks([])
            continue
        for  k in range(3):
            ax.scatter(x[f[k],row], x[f[k],col], c=color[k], s=3)    
    fig.subplots_adjust(hspace=0.3, wspace=0.3) # 設定間距
    plt.show()

在這裡插入圖片描述

分類和預測

    # 隨機劃分訓練集和測試集
    num = x.shape[0] # 樣本總數
    ratio = 7/3 # 劃分比例，訓練集數目:測試集數目
    num_test = int(num/(1+ratio)) # 測試集樣本數目
    num_train = num -  num_test # 訓練集樣本數目
    index = np.arange(num) # 產生樣本標號
    np.random.shuffle(index) # 洗牌
    x_test = x[index[:num_test],:] # 取出洗牌後前 num_test 作為測試集
    y_test = y[index[:num_test]]
    x_train = x[index[num_test:],:] # 剩餘作為訓練集
    y_train = y[index[num_test:]]
    
    # 構建決策樹
    clf = tree.DecisionTreeClassifier() # 建立決策樹物件
    clf.fit(x_train, y_train) # 決策樹擬合

    # 預測
    y_test_pre = clf.predict(x_test) # 利用擬合的決策樹進行預測
    print('the predict values are', y_test_pre) # 顯示結果

計算準確率

  # 計算分類準確率
    acc = sum(y_test_pre==y_test)/num_test
    print('the accuracy is', acc) # 顯示預測準確率

由於資料集的劃分是隨機的每次得到的準確率都不一樣，一般位於91%-97%之間。

2 基於MATLAB 實現

Matlab 對資料的視覺化

在這裡插入圖片描述

實現的實現過程與 python 的流程是一樣的，只是兩種程式語言的語法上的差異。

clc
clear all
close all;
load fisheriris;  % 載入資料集
% 資料視覺化
x = meas;
y = species;
class = unique(y);
attr = {'sepal length', 'sepal width', 'petal length', 'petal width'};
ind1 = ismember(y, class{1});
ind2 = ismember(y, class{2});
ind3 = ismember(y, class{3});
s=10;
for i=1:4
   for j=1:4
      subplot(4,4,4*(i-1)+j);
      if i==j
          set(gca, 'xtick', [], 'ytick', []);
          text(.2, .5, attr{i});
          set(gca, 'box', 'on');
          continue;
       end
      scatter(x(ind1,i), x(ind1,j), s, 'r', 'MarkerFaceColor', 'r');
      hold on
      scatter(x(ind2,i), x(ind2,j), s, 'b', 'MarkerFaceColor', 'b');
      hold on
      scatter(x(ind3,i), x(ind3,j), s, 'g', 'MarkerFaceColor', 'g');
       set(gca, 'box', 'on');
   end
end
% 隨機劃分訓練集和測試集
ratio = 7/3;
num = length(x);
num_test = round(num/(1+ratio));
num_train = num - num_test;
index = randperm(num);
x_train = x(index(1:num_train),:);
y_train = y(index(1:num_train));
x_test = x(index(num_train+1:end),:);
y_test = y(index(num_train+1:end));
% 構建決策樹並預測結果
tree = fitctree(x_train, y_train);
y_test_p = predict(tree, x_test);
% 計算預測準確率
acc = sum(strcmp(y_test,y_test_p))/num_test;
disp(['The accuracy is ', num2str(acc)]);

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類文章目錄基於決策樹模型對 IRIS 資料集分類 1 python 實現載入資料集視覺化資料集分類和預測計算準確率 2 基於MATLA

基於 K-Means 對 IRIS 資料集分類

基於sklearn 對 IRIS 資料集分類關於聚類聚類（Clustering）是一種無監督學習(unsupervised learning)，簡單地說就是把相似的物件歸到同一簇中。簇內的物件越相似，聚類的效果越好。關於 K-Means Ｋ-Means演算法是最為經典的

Spark 2.x 決策樹示例程式碼-IRIS資料集

資料集下載下載連結程式碼 package Iris; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o

利用 sklearn SVM 分類器對 IRIS 資料集分類

利用 sklearn SVM 分類器對 IRIS 資料集分類支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”

R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

　　　鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度，花萼寬度，花瓣長度，花瓣寬度4個屬性預測鳶尾花卉屬於（Setosa，Versicolour，Virginica）三個種類中的哪一類　　針對iris資料集實踐決策樹演算法(C4.5、C5.0

卷積神經網路對CIFAR資料集分類

本例通過一個具有全域性平局池化層的神經網路對CIFAR資料集分類 1.匯入標頭檔案引入資料集這部分使用cifar10_input裡面的程式碼，在cifar10資料夾下建立卷積檔案，部分程式碼如下： import cifar10_input import tensorf

Python 3實現k-鄰近演算法以及 iris 資料集分類應用

前言這個周基本在琢磨這個演算法以及自己利用Python3 實現自主程式設計實現該演算法。持續時間比較長，主要是Pyhton可能還不是很熟練，走了很多路，基本是一邊寫一邊學。不過，總算是基本搞出來了。不多說，進入正題。 1. K-鄰近演算法 1.1

用樸素貝葉斯對wine資料集分類

該實驗的資料集是MostPopular Data Sets（hits since 2007）中的wine資料集，這是是對在義大利同一地區生產的三種不同品種的酒，做大量分析所得出的資料。這些資料包括了三種酒中13種不同成分的數量。經過幾天對資料集以及分類演算法的研究，詳細研

XGBoost實現對鳶尾花資料集分類預測

code:import xgboost as xgb import numpy as np import pandas as pd from sklearn.model_selection import

關於資料壓縮、信源編碼、赫夫曼碼的一些研究，以及由此引出對決策樹模型的資訊理論本質的思考

1. 關於資料壓縮 0x1：什麼是資料壓縮？為什麼要進行資料壓縮？從資訊理論的角度來看資料壓縮，本質上就是通過尋找一種編碼方案，在不損失或者儘量少損失原始信源訊號的前提下，將原始信源訊號對映到另一個D元碼字空間上。在機器學習中，我們經常討論到的”模型訓練“，其本質上就是在尋找

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

　　data(churn)匯入自帶的訓練集churnTrain和測試集churnTest 　　用id3、cart、C4.5和C5.0建立決策樹模型，並用交叉矩陣評估模型，針對churn資料，哪種模型更合適　　　　決策樹模型 ID3/C4.5/CART演算法比較　　　傳送門

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

Spark ML 基於Iris資料集進行資料建模及迴歸聚類綜合分析-Spark商業ML實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。

Python資料分析與機器學習-使用sklearn構造決策樹模型

# datasets包括內建的資料集 california_housing房價的資料集 from sklearn.datasets.california_housing import fetch_california_housing import pandas as pd

資料探勘-Iris資料集分析-決策邊界_根據花瓣資料繪製(七)

# coding: utf-8 # 使用花瓣測量資料繪製 2D散點圖，並繪出決策邊界 import numpy as np import matplotlib.pyplot as plt from

【大資料部落】r、 weka從決策樹模型看員工為什麼離職？

馬雲說：“員工離職的原因總是隻有兩個：錢，沒有到位;心委屈了。” 現在很多老闆都抱怨說，年輕人的流動率太高了，員工覺得老闆的錢太少了，最後還是多指責。為什麼我們最好和最有經驗的員工過早離職？到底如何解決這個困境？拓端資料tecdat使用資料分析員工離開的原

大資料入門——使用決策樹模型預測泰坦尼克號乘客的生還情況

#資料查驗 import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataS

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

alpha 做了 .org ntb 變量 feature sum mac 實踐摘要：　　1.算法概述　　2.算法推導　　3.算法特性及優缺點　　4.註意事項　　5.實現和具體例子內容： 1.算法概述　　1.1 決策樹（DT）是一種基本的分類和

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類

文章目錄

1 python 實現

載入資料集

視覺化資料集

分類和預測

計算準確率

2 基於MATLAB 實現

相關推薦