決策樹演算法簡介及其MATLAB實現程式碼

阿新 • • 發佈：2018-12-12

決策樹原理概述

決策樹通過把樣本例項從根節點排列到某個葉子節點來對其進行分類。樹上的每個非葉子節點代表對一個屬性取值的測試，其分支就代表測試的每個結果（yes no表示正類、負類）;而樹上的每個葉子節點均代表一個分類的類別，樹的最高層節點是根節點。當所有葉子節點給出的分類結果都一樣時，就結束生長，即已經可以判定樣本的類別。
根節點並沒有什麼實際的意義。
簡單地說，決策樹就是一個類似流程圖的樹形結構，採用自頂向下的遞迴方式，從樹的根節點開始，在它的內部節點上進行屬性值的測試比較，然後按照給定例項的屬性值確定對應的分支，最後在決策樹的葉子節點得到結論。這個過程在以新的節點為根的子樹上重複。直到所有新節點給出的結果一致或足以判斷分類

（我們可以設計一些規則來決定）。

上圖是一個區分動物型別的例子。

決策樹其實很好理解。舉個例子，它就像我們玩的猜謎底遊戲。B向A提問，每次可以問不同的問題，而A只能回答是或不是，對或不對。通過多次發問，B越來越接近正確答案。這裡，每個問題實際上就是非葉子節點的屬性測試，是或者不是就是給出測試結果yes or no。如果一個謎底符合你所有問題（屬性），得到答案一致，那麼你一定能肯定這個謎底是什麼。

決策樹的經典演算法：ID3演算法

原則上講，對給定的資料集，可構造的決策樹數目達到指數級。但是由於算力優先，我們只能在一定條件下構造出具有一定準確率的較優的決策樹。這些演算法通常都是採用貪心策略，在選擇劃分資料的屬性時，採取一系列區域性最優決策來構造決策樹。

Hunt演算法是許多決策樹演算法的基礎，包括ID3、C4.5和CART。

資訊增益越大代表這個屬性中包含的資訊量越多。因為它的定義式實際上是熵的變化。

改進：C4.5演算法

針對ID3演算法中可能存在的問題，學者提出了一些改進。

針對上述兩種演算法，具體解釋和舉例可以參考：《資料探勘系列（6）決策樹分類演算法》，此處不再贅述。

決策樹的優缺點

優點：

– 決策樹易於理解和實現。人們在通過解釋後都有能力去理解決策樹所表達的意義。

– 對於決策樹，資料的準備往往是簡單或者是不必要的。其他的技術往往要求先把資料歸一化，比如去掉多餘的或者空白的屬性。

– 能夠同時處理資料型和常規型屬性。其他的技術往往要求資料屬性的單一。

– 是一個白盒模型。如果給定一個觀察的模型，那麼根據所產生的決策樹很容易推出相應的邏輯表示式。

缺點：

– 對於各類別樣本數量不一致的資料，在決策樹當中資訊增益的結果偏向於那些具有更多數值的特徵。

– 決策樹內部節點的判別具有明確性，這種明確性可能會帶來誤導。

MATLAB實現決策樹分類演算法

%% I. 清空環境變數
clear all
clc
warning off

%% II. 匯入資料
load data.mat

%%
% 1. 隨機產生訓練集/測試集
a = randperm(569);
Train = data(a(1:500),:);
Test = data(a(501:end),:);

%%
% 2. 訓練資料
P_train = Train(:,3:end);
T_train = Train(:,2);

%%
% 3. 測試資料
P_test = Test(:,3:end);
T_test = Test(:,2);

%% III. 建立決策樹分類器
ctree = ClassificationTree.fit(P_train,T_train);

%%
% 1. 檢視決策樹檢視
view(ctree);
view(ctree,'mode','graph');

%% IV. 模擬測試
T_sim = predict(ctree,P_test);

%% V. 結果分析
count_B = length(find(T_train == 1));
count_M = length(find(T_train == 2));
rate_B = count_B / 500;
rate_M = count_M / 500;
total_B = length(find(data(:,2) == 1));
total_M = length(find(data(:,2) == 2));
number_B = length(find(T_test == 1));
number_M = length(find(T_test == 2));
number_B_sim = length(find(T_sim == 1 & T_test == 1));
number_M_sim = length(find(T_sim == 2 & T_test == 2));
disp(['病例總數：' num2str(569)...
      '  良性：' num2str(total_B)...
      '  惡性：' num2str(total_M)]);
disp(['訓練集病例總數：' num2str(500)...
      '  良性：' num2str(count_B)...
      '  惡性：' num2str(count_M)]);
disp(['測試集病例總數：' num2str(69)...
      '  良性：' num2str(number_B)...
      '  惡性：' num2str(number_M)]);
disp(['良性乳腺腫瘤確診：' num2str(number_B_sim)...
      '  誤診：' num2str(number_B - number_B_sim)...
      '  確診率p1=' num2str(number_B_sim/number_B*100) '%']);
disp(['惡性乳腺腫瘤確診：' num2str(number_M_sim)...
      '  誤診：' num2str(number_M - number_M_sim)...
      '  確診率p2=' num2str(number_M_sim/number_M*100) '%']);
  
%% VI. 葉子節點含有的最小樣本數對決策樹效能的影響
leafs = logspace(1,2,10);

N = numel(leafs);

err = zeros(N,1);
for n = 1:N
    t = ClassificationTree.fit(P_train,T_train,'crossval','on','minleaf',leafs(n));
    err(n) = kfoldLoss(t);
end
plot(leafs,err);
xlabel('葉子節點含有的最小樣本數');
ylabel('交叉驗證誤差');
title('葉子節點含有的最小樣本數對決策樹效能的影響')

%% VII. 設定minleaf為13，產生優化決策樹
OptimalTree = ClassificationTree.fit(P_train,T_train,'minleaf',13);
view(OptimalTree,'mode','graph')

%%
% 1. 計算優化後決策樹的重取樣誤差和交叉驗證誤差
resubOpt = resubLoss(OptimalTree)
lossOpt = kfoldLoss(crossval(OptimalTree))

%%
% 2. 計算優化前決策樹的重取樣誤差和交叉驗證誤差
resubDefault = resubLoss(ctree)
lossDefault = kfoldLoss(crossval(ctree))

%% VIII. 剪枝
[~,~,~,bestlevel] = cvLoss(ctree,'subtrees','all','treesize','min')
cptree = prune(ctree,'Level',bestlevel);
view(cptree,'mode','graph')

%%
% 1. 計算剪枝後決策樹的重取樣誤差和交叉驗證誤差
resubPrune = resubLoss(cptree)
lossPrune = kfoldLoss(crossval(cptree))

決策樹演算法簡介及其MATLAB實現程式碼

目錄決策樹原理概述決策樹通過把樣本例項從根節點排列到某個葉子節點來對其進行分類。樹上的每個非葉子節點代表對一個屬性取值的測試，其分支就代表測試的每個結果（yes no表示正類、負類）;而樹上的每個葉子節點均代表一個分類的類別，樹的最高層節點是

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

KNN分類演算法原理及其Matlab實現

KNN演算法原理 K近鄰演算法是一種簡單的監督學習演算法。對於給定測試樣本，直接計算該樣本和訓練集的距離，將距離最近的k個“鄰居”點的類別作為參考，作為預測結果返回。測試資料程式碼 matlab版

決策樹演算法原理及JAVA實現(ID3)

package sequence.machinelearning.decisiontree.myid3; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.FileWri

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

決策樹演算法原理與 Python實現

轉自： https://blog.csdn.net/huahuazhu/article/details/73167610?locationNum=2&fps=1 ###########################################

資料探勘學習筆記-決策樹演算法淺析(含Java實現)

目錄一、通俗理解決策樹演算法原理二、舉例說明演算法執行過程三、Java實現本文基於書籍《資料探勘概念與技術》，由於剛接觸Data Mining，所以可能有理解不到位的情況，記錄學習筆記，提升自己對演算法的理解。程式碼下方有，如果有金幣的童鞋可以貢獻一下給無恥的

模擬退火(Simulated Annealing, SA)演算法簡介與MATLAB實現

目錄演算法步驟演算法特點模擬退火演算法概述模擬退火演算法(Simulated Annealing，簡稱SA)的思想最早是由Metropolis等提出的。其出發點是基於物理中固體物質的退火過程與一般的組合優化問題之間的相似性。模擬退火法是一種

決策樹演算法及視覺化實現

序本文旨在對決策樹演算法的python實現及利用matplotlib繪製樹進行學習。演算法描述（1）最小二乘迴歸樹生成演算法（2）CART生成演算法其中，5.25如下

壓縮感知中的常見測量矩陣及其MATLAB實現程式碼

題目：壓縮感知的常見測量矩陣下面首先給出十篇參考文獻中有關測量矩陣的敘述，然後以一篇碩士論文中對七種常見測量矩陣的描述依據，給出了這七種常見測量矩陣的MATLAB實現程式碼，以為以後的研究提供一個參考，由於目前還沒有一個簡單有效的測量矩陣評價方法，因此

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

機器學習入門演算法及其java實現-ID3(決策樹)演算法

ID3決策樹也是決策樹的一種，其作用在於根據已有資料訓練決策樹，並通過決策樹的分支實現對新資料的分類，是一種有監督的學習。在生成決策樹的過程中，ID3使用的資訊熵增益對子節點類別進行確定。根據資訊熵越是有序的資料熵值越低，資訊熵增益越大表示當前屬性對於資料的

MDS演算法及其matlab實現

問題背景：在求解MTSP問題的時候，因為已知的為各個巡檢點之間路徑耗時長度，而這個具體描述採用無向圖結構可以很好的描述，在matlab中通過函式（graphallshortestpaths）可以得到任意兩個巡檢點之間的距離矩陣 1 %%得到任意兩個巡檢點之間的路徑時間長度 2 %W表示從一個巡

【學習筆記】平衡二叉樹（AVL樹）簡介及其查詢、插入、建立操作的實現

目錄平衡二叉樹簡介：各種操作實現程式碼：詳細內容請參見《演算法筆記》P319 初始AVL樹，一知半解，目前不是很懂要如何應用，特記錄下重要內容，以供今後review。平衡二叉樹簡介：平衡二叉樹由兩位前

Pyhton實現決策樹演算法 MNIST資料集

Pyhton實現決策樹演算法 MNIST資料集決策樹是一種比較接近人類思維方式的演算法，將樣本通過每個特徵值的資訊增益進行劃分，從而保證每個劃分之後的結果資訊熵的消減量達到最大。具體的原理請大家自己查詢相關資料。 sklearn實現程式碼如下, 準確率可以達到90%左右。 fr

決策樹演算法實現要點

1.定義節點（節點的集合形成樹）；即定義一個結構體Point，而用Point tree[] 來表示樹。點Point裡面包括name（在該點進行分類的特徵），val（該點父輩的特徵的某個值），n_child（帶點子代的數量），*son（指向子代的指標），id（帶節點是否有必要存在） 2.全

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

決策樹演算法及實現

在電腦科學中，樹是一種很重要的資料結構，比如我們最為熟悉的二叉查詢樹（Binary Search Tree），紅黑樹（Red-Black Tree）等，通過引入樹這種資料結構，我們可以很快地縮小問題規模，實現高效的查詢。在監督學習中，面對樣本中複雜多樣的特徵，選取什麼樣的策略可以實

AlgorithmDeveloper 決策樹演算法實現.md

以相親為例子建立資料集 def creatDataSet(): dataSet= [[1,1,1,'見'], [1,0,1,'見'], [1,0,0,'不見'],

決策樹演算法簡介及其MATLAB實現程式碼

決策樹原理概述

決策樹的經典演算法：ID3演算法

改進：C4.5演算法

決策樹的優缺點

MATLAB實現決策樹分類演算法

相關推薦