決策樹演算法及其應用案例

阿新 • • 發佈：2019-01-08

決策樹演算法主要分為三類：
ID3、C4.5、CART演算法
以ID3演算法為例：

對上表某圖書銷量進行預測.
思考:建立測試模型,各個變數資料權重?資料的轉化?
重點在於：計算各個資訊熵(資料預處理),可參考百度百科內容
決策樹演算法模組：
關注點:對資料需要進行預處理,轉化為結構化資料,然後進行分析處理,資訊熵的計算,權重大小的比較
資料的預處理模組：

#資料的處理模組
fname="C:/Users/Administrator/Desktop/pandashesuanfa/lesson.csv"
df=pd.read_csv(fname)               #備註:需要將csv檔案轉為utf-8格式再進行讀取檔案
#print(df)

x=df.iloc[:,1:5].as_matrix()   #提取變數值,並轉化為陣列
y=df.iloc[:,5].as_matrix()  #等價於df.iloc[:,5:6]


for i in range(0,len(x)):       #遍歷所有資料
    for j in range(0,len(x[i])):
        thisdata=x[i][j]
        if(thisdata=="是" or thisdata=="多" or thisdata=="高"):
            x[i][j]=int(1)  #1的型別轉為整型
        else:
            x[i][j]=int(-1)
for i in range(0,len(y)):
    thisdata=y[i]
    if(thisdata=="高"):
        y[i]=1
    else:
        y[i]=-1
'''
容易錯的地方:直接拿資料進行訓練
原因dtype=object型別不對,
首先應該轉化格式,將x,y轉化為資料框,然後轉化為陣列並指定格式
'''
xf=pd.DataFrame(x)
yf=pd.DataFrame(y)
x2=xf.as_matrix().astype(int)
y2=yf.as_matrix().astype(int)

建立決策樹模組：

#建立決策樹
from sklearn.tree import  DecisionTreeClassifier as DTC
dtc=DTC(criterion="entropy")
dtc.fit(x2,y2)

#方法一:通過程式碼實現輸出預測結果資料,如下
import numpy as np
x3=np.array([[1,-1,-1,1],[1,1,1,1,],[-1,1,-1,1],[-1,-1,1,1]])  #預測四個資料的銷量高低
rst=dtc.predict(x3)   #利用決策樹的方法predict進行計算
print(rst)              #得出[ 1  1 -1 -1]四個預測結果:高,高,低,低

'''
#方法二:視覺化決策樹,人工根據決策樹圖形進行分析預測結果
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
with open("tree.dot","w") as file:      #以寫入的方式建立並開啟
    file=export_graphviz(dtc,feature_names=["shizhan","keshishu","chu3333xiao","ziliao"],out_file=file)
'''
輸出結果：[ 1  1 -1 -1]:高、高、低、低

完整程式碼如下：

#決策樹ID3演算法
import pandas as pd
'''
fname="C:/Users/Administrator/Desktop/pandashesuanfa/lesson1.xls"
df=pd.read_excel(fname)
編譯通過
'''
fname="C:/Users/Administrator/Desktop/pandashesuanfa/lesson.csv"
df=pd.read_csv(fname)               #備註:需要將csv檔案轉為utf-8格式再進行讀取檔案
#print(df)

x=df.iloc[:,1:5].as_matrix()   #提取變數值,並轉化為陣列
y=df.iloc[:,5].as_matrix()  #等價於df.iloc[:,5:6]
for i in range(0,len(x)):       #遍歷所有資料
    for j in range(0,len(x[i])):
        thisdata=x[i][j]
        if(thisdata=="是" or thisdata=="多" or thisdata=="高"):
            x[i][j]=int(1)  #1的型別轉為整型
        else:
            x[i][j]=int(-1)
for i in range(0,len(y)):
    thisdata=y[i]
    if(thisdata=="高"):
        y[i]=1
    else:
        y[i]=-1
'''
容易錯的地方:直接拿資料進行訓練
原因dtype=object型別不對,
首先應該轉化格式,將x,y轉化為資料框,然後轉化為陣列並指定格式
'''
xf=pd.DataFrame(x)
yf=pd.DataFrame(y)
x2=xf.as_matrix().astype(int)
y2=yf.as_matrix().astype(int)
#建立決策樹
from sklearn.tree import  DecisionTreeClassifier as DTC
dtc=DTC(criterion="entropy")
dtc.fit(x2,y2)

#方法一:通過程式碼實現輸出預測結果資料,如下
import numpy as np
x3=np.array([[1,-1,-1,1],[1,1,1,1,],[-1,1,-1,1],[-1,-1,1,1]])  #預測四個資料的銷量高低
rst=dtc.predict(x3)   #利用決策樹的方法predict進行計算
print(rst)              #得出[ 1  1 -1 -1]四個預測結果:高,高,低,低

'''
#方法二:視覺化決策樹,人工根據決策樹圖形進行分析預測結果
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
with open("tree.dot","w") as file:      #以寫入的方式建立並開啟
    file=export_graphviz(dtc,feature_names=["shizhan","keshishu","chu3333xiao","ziliao"],out_file=file)
'''

決策樹演算法及其應用案例

決策樹演算法主要分為三類： ID3、C4.5、CART演算法以ID3演算法為例：對上表某圖書銷量進行預測. 思考:建立測試模型,各個變數資料權重?資料的轉化? 重點在於：計算各個資訊熵(資料預處理),可參考百度百科內容決策樹演算法模組：關注點:對資料需要進行預處理,

決策樹演算法簡介及其MATLAB實現程式碼

目錄決策樹原理概述決策樹通過把樣本例項從根節點排列到某個葉子節點來對其進行分類。樹上的每個非葉子節點代表對一個屬性取值的測試，其分支就代表測試的每個結果（yes no表示正類、負類）;而樹上的每個葉子節點均代表一個分類的類別，樹的最高層節點是

通俗易懂--決策樹演算法、隨機森林演算法講解(演算法+案例)

1.決策樹 1.1從LR到決策樹相信大家都做過用LR來進行分類，總結一下LR模型的優缺點：優點適合需要得到一個分類概率的場景。實現效率較高。很好處理線性特徵。缺點當特徵空間很大時，邏輯迴歸的效能不是很好。不能很好地處理大量多類特徵。

機器學習入門演算法及其java實現-ID3(決策樹)演算法

ID3決策樹也是決策樹的一種，其作用在於根據已有資料訓練決策樹，並通過決策樹的分支實現對新資料的分類，是一種有監督的學習。在生成決策樹的過程中，ID3使用的資訊熵增益對子節點類別進行確定。根據資訊熵越是有序的資料熵值越低，資訊熵增益越大表示當前屬性對於資料的

day27—JavaScript實現定時器及其應用案例

scrip tin 定時定時器對象延遲 day 方法 fun value 轉行學開發，代碼100天——2018-04-12 JavaScript中定時器有兩種，分別是setInterval和setTimeout;其用法如下：開啟： setTimeout("fun

決策樹演算法（ID3，C4.5，CART）

ID3，C4.5，CART是是決策樹的核心演算法。它們都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 1.ID3演算法 ID3演算法遞迴地構建決策樹，從根節點開始，對所有特徵計算資訊增益，選擇資訊增益最大的特徵作為節點的特徵，由該特徵的不同取值建

決策樹演算法--ID3

原創：袁恆 Refinitiv創新實驗室ARGO 9月17日稽核：施天璐單華傅佳編輯：張翔一什麼是決策樹決策樹是機器學習方法中的一種監督學習演算法，表示根據特徵對樣本進行分類的樹形結構，可以用於分類和迴歸。它的思路大概是這樣

圖論初步-Tarjan演算法及其應用

暑假刷了一堆Tarjan題到頭來還是忘得差不多。這篇部落格權當複習吧。一些定義無向圖割頂與橋（劃重點）圖G是連通圖，刪除一個點表示刪除此點以及所有與其相連的邊。若刪除某點u後G不再連通，那麼u是G的一個割頂（割點）。若刪除某邊e後G不再連通，那麼e是G的一個橋。雙連通一個圖為雙

R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

　　　鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度，花萼寬度，花瓣長度，花瓣寬度4個屬性預測鳶尾花卉屬於（Setosa，Versicolour，Virginica）三個種類中的哪一類　　針對iris資料集實踐決策樹演算法(C4.5、C5.0

學習筆記（五）：使用決策樹演算法檢測POP3暴力破解

1.資料蒐集載入KDD 99中的資料： def load_kdd99(filename): x=[] with open(filename) asf: for line in f: line=line.st

基於sklearn的決策樹演算法

1、決策樹介紹決策樹簡單的理解為if-then的集合，其優點主要有分類速度快、可讀性等。決策樹的生成主要可分為三個步驟：特徵的選擇、決策樹的生成、決策樹的剪枝。 1.1特徵選擇對於結點的選擇，總得需要一個計算方法來實現，這個方法的目標是優先選擇分類能力強的特徵，這樣才提高

skiti-learn決策樹演算法庫

skiti-learn內部實現的是調優過的CART決策樹。既可以做分類，也可以做迴歸。分類決策樹採用的類是DecisionTreeClassifier,迴歸則是DecisionTreeRegressor。 DecisionTreeClassifier and DecisionTr

小白自學機器學習之一文讀懂決策樹演算法詳解

1.概念準備 1.1 遞迴與迭代迭代是人，遞迴是神。區別定義優缺點遞迴（recursion）程式呼叫自身

機器學習_8.決策樹演算法

1.ID3演算法預備知識 1.資訊熵： 2.資訊增益演算法內容引入了資訊理論中的互資訊（資訊增益）作為選擇判別因素的度量，即：以資訊增益的下降速度作為選取分類屬性的標準，所選的測試屬性是從根節點到當前節點的路徑上從沒有

Pyhton實現決策樹演算法 MNIST資料集

Pyhton實現決策樹演算法 MNIST資料集決策樹是一種比較接近人類思維方式的演算法，將樣本通過每個特徵值的資訊增益進行劃分，從而保證每個劃分之後的結果資訊熵的消減量達到最大。具體的原理請大家自己查詢相關資料。 sklearn實現程式碼如下, 準確率可以達到90%左右。 fr

決策樹演算法實現要點

1.定義節點（節點的集合形成樹）；即定義一個結構體Point，而用Point tree[] 來表示樹。點Point裡面包括name（在該點進行分類的特徵），val（該點父輩的特徵的某個值），n_child（帶點子代的數量），*son（指向子代的指標），id（帶節點是否有必要存在） 2.全

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

機器學習-決策樹演算法

機器學習中分類和預測演算法的評估： 1.準確率 2.速度 3.強壯性 4.可規模性 5.可解釋性 1.什麼是決策樹/判定樹判定樹是一個類似於流程圖的樹結構：其中，每個內部結點表示在一個屬性上的測試，每個分支代表一個屬性輸出，而每個樹葉結點代表類或類分佈。樹

Trie（字首樹/字典樹）及其應用

Trie，又經常叫字首樹，字典樹等等。它有很多變種，如字尾樹，Radix Tree/Trie，PATRICIA tree，以及bitwise版本的crit-bit tree。當然很多名字的意義其實有交叉。定義在電腦科學中，trie，又稱字首樹或字典樹，是一種有序樹，用於

決策樹演算法及實現

在電腦科學中，樹是一種很重要的資料結構，比如我們最為熟悉的二叉查詢樹（Binary Search Tree），紅黑樹（Red-Black Tree）等，通過引入樹這種資料結構，我們可以很快地縮小問題規模，實現高效的查詢。在監督學習中，面對樣本中複雜多樣的特徵，選取什麼樣的策略可以實

決策樹演算法及其應用案例

相關推薦