1. 概述

上一篇日誌中，我們介紹了兩個決策樹構建演算法 – ID3、C4.5：
決策樹的構建演算法 – ID3 與 C4.5 演算法
本篇日誌我們來看看如何使用這兩個演算法以及其他工具構建和展示我們的決策樹。

2. 使用 C4.5 構建決策樹

有了上一篇日誌中，我們介紹的 ID3 與 C4.5 演算法，遞迴進行計算，選出每一層當前的最佳特徵以及最佳特徵對應的最佳劃分特徵值，我們就可以構建出完整的決策樹了：

# 此處有圖片

流程圖非常清晰，上圖的基本思想是，對於數值型特徵，我們只分為左右兩分支，以防止子樹過多，同時也避免多種分發造成的系統複雜度過高，而對於字串描述性特徵，我們按照特徵取值個數來進行子樹劃分，因為通常來說，數值型特徵取值會非常多，而字串描述性特徵則不會。

2.1. python 程式碼實現

# -*- coding: UTF-8 -*-
# {{{
import operator
from math import log


def createDataSet():
    """
    建立資料集

    :return: 資料集與特徵集
    """
    dataSet = [[706, 'hot', 'sunny', 'high', 'false', 'no'],
               [706, 'hot', 'sunny', 'high', 'true', 'no'],
               [ 
706, 'hot', 'overcast', 'high', 'false', 'yes'],
               [709, 'cool', 'rain', 'normal', 'false', 'yes'],
               [710, 'cool', 'overcast', 'normal', 'true', 'yes'],
               [712, 'mild', 'sunny', 'high', 'false', 'no'],
               [714, 'cool', 'sunny', 'normal', 'false', 'yes' 
],
               [715, 'mild', 'rain', 'normal', 'false', 'yes'],
               [720, 'mild', 'sunny', 'normal', 'true', 'yes'],
               [721, 'mild', 'overcast', 'high', 'true', 'yes'],
               [722, 'hot', 'overcast', 'normal', 'false', 'yes'],
               [723, 'mild', 'sunny', 'high', 'true', 'no'],
               [726, 'cool', 'sunny', 'normal', 'true', 'no'],
               [730, 'mild', 'sunny', 'high', 'false', 'yes']]
    labels = ['日期', '氣候', '天氣', '氣溫', '寒冷']
    return dataSet, labels


def classCount(dataSet):
    """
    獲取每個特徵出現的次數

    :param dataSet: 資料集
    :return:
    """

    labelCount = {}
    for one in dataSet:
        if one[-1] not in labelCount.keys():
            labelCount[one[-1]] = 0
        labelCount[one[-1]] += 1
    return labelCount


def calcShannonEntropy(dataSet):
    """
    計算系統資訊熵

    :param dataSet: 資料集
    :return:
    """

    labelCount = classCount(dataSet)
    numEntries = len(dataSet)
    Entropy = 0.0
    for i in labelCount:
        prob = float(labelCount[i]) / numEntries
        Entropy -= prob * log(prob, 2)
    return Entropy


def majorityClass(dataSet):
    """
    找到對應結果最多的特徵

    :param dataSet: 資料集
    :return:
    """
    labelCount = classCount(dataSet)
    sortedLabelCount = sorted(labelCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedLabelCount[0][0]


def splitDataSet(dataSet, i, value):
    """
    非數值型特徵劃分
    將 dataset 以第 i 個特徵值為 value 作為基準劃分為多個部分

    :param dataSet: 資料集
    :param i: 特徵索引
    :param value: 劃分基準值
    :return:
    """

    subDataSet = []
    for one in dataSet:
        if one[i] == value:
            reduceData = one[:i]
            reduceData.extend(one[i + 1:])
            subDataSet.append(reduceData)
    return subDataSet


def splitContinuousDataSet(dataSet, i, value, direction):
    """
    數值型特徵劃分
    將 dataset 以第 i 個特徵值為 value 作為基準劃分為多個部分

    :param dataSet: 資料集
    :param i: 特徵索引
    :param value: 劃分基準值
    :param direction: 0. 左側, 1. 右側
    :return:
    """

    subDataSet = []
    for one in dataSet:
        if direction == 0:
            if one[i] > value:
                reduceData = one[:i]
                reduceData.extend(one[i + 1:])
                subDataSet.append(reduceData)
        if direction == 1:
            if one[i] <= value:
                reduceData = one[:i]
                reduceData.extend(one[i + 1:])
                subDataSet.append(reduceData)
    return subDataSet


def chooseBestFeat(dataSet, labels):
    """
    獲取最佳特徵與特徵對應的最佳劃分值

    :param dataSet: 資料集
    :param labels: 特徵集
    :return:
    """

    global bestSplit
    """ 計算劃分前系統的資訊熵 """
    baseEntropy = calcShannonEntropy(dataSet)
    bestFeat = 0
    baseGainRatio = -1
    numFeats = len(dataSet[0]) - 1
    bestSplitDic = {}

    """ 遍歷每個特徵 """
    for i in range(numFeats):
        """ 獲取該特徵所有值 """
        featVals = [example[i] for example in dataSet]
        uniVals = sorted(set(featVals))
        if type(featVals[0]).__name__ == 'float' or type(featVals[0]).__name__ == 'int':

            """ 用於區分的座標值 """
            splitList = []
            for j in range(len(uniVals) - 1):
                splitList.append((uniVals[j] + uniVals[j + 1]) / 2.0)

            """ 計算資訊增益比，找到最佳劃分屬性與劃分閾值 """
            for j in range(len(splitList)):

                """ 該劃分情況下熵值 """
                newEntropy = 0.0
                splitInfo = 0.0
                value = splitList[j]

                """ 劃分出左右兩側資料集 """
                subDataSet0 = splitContinuousDataSet(dataSet, i, value, 0)
                subDataSet1 = splitContinuousDataSet(dataSet, i, value, 1)

                """ 計算劃分後系統資訊熵 """
                prob0 = float(len(subDataSet0)) / len(dataSet)
                newEntropy -= prob0 * calcShannonEntropy(subDataSet0)
                prob1 = float(len(subDataSet1)) / len(dataSet)
                newEntropy -= prob1 * calcShannonEntropy(subDataSet1)

                """ 獲取懲罰引數 """
                splitInfo -= prob0 * log(prob0, 2)
                splitInfo -= prob1 * log(prob1, 2)

                """ 計算資訊增益比 """
                gainRatio = float(baseEntropy - newEntropy) / splitInfo

                if gainRatio > baseGainRatio:
                    baseGainRatio = gainRatio
                    bestSplit = j
                    bestFeat = i

            bestSplitDic[labels[i]] = splitList[bestSplit]
        else:
            splitInfo = 0.0
            newEntropy = 0.0
            for value in uniVals:
                """ 劃分資料集 """
                subDataSet = splitDataSet(dataSet, i, value)

                """ 計算劃分後系統資訊熵 """
                prob = float(len(subDataSet)) / len(dataSet)
                newEntropy -= prob * calcShannonEntropy(subDataSet)

                """ 獲取懲罰引數 """
                splitInfo -= prob * log(prob, 2)

            """ 計算資訊增益比 """
            gainRatio = float(baseEntropy - newEntropy) / splitInfo
            if gainRatio > baseGainRatio:
                bestFeat = i
                baseGainRatio = gainRatio

    bestFeatValue = None
    if type(dataSet[0][bestFeat]).__name__ == 'float' or type(dataSet[0][bestFeat]).__name__ == 'int':
        bestFeatValue = bestSplitDic[labels[bestFeat]]
    if type(dataSet[0][bestFeat]).__name__ == 'str':
        bestFeatValue = labels[bestFeat]
    return bestFeat, bestFeatValue


def createTree(dataSet, labels):
    """
    遞迴建立決策樹

    :param dataSet: 資料集
    :param labels: 特徵指標集
    :return: 決策樹字典結構
    """
    classList = [example[-1] for example in dataSet]

    if len(set(classList)) == 1:
        return classList[0]

    if len(dataSet[0]) == 1:
        return majorityClass(dataSet)

    """ 找到當前的最佳劃分屬性與劃分閾值 """
    bestFeat, bestFeatLabel = chooseBestFeat(dataSet, labels)

    myTree = {labels[bestFeat]: {}}
    subLabels = labels[:bestFeat]
    subLabels.extend(labels[bestFeat + 1:])

    if type(dataSet[0][bestFeat]).__name__ == 'str':
        featVals = [example[bestFeat] for example in dataSet]
        uniqueVals = set(featVals)

        """ 遞迴建立左右子樹 """
        for value in uniqueVals:
            """ 獲取去除該特徵資料集 """
            reduceDataSet = splitDataSet(dataSet, bestFeat, value)
            myTree[labels[bestFeat]][value] = createTree(reduceDataSet, subLabels)

    if type(dataSet[0][bestFeat]).__name__ == 'int' or type(dataSet[0][bestFeat]).__name__ == 'float':
        value = bestFeatLabel

        """ 劃分資料集 """
        greaterDataSet = splitContinuousDataSet(dataSet, bestFeat, value, 0)
        smallerDataSet = splitContinuousDataSet(dataSet, bestFeat, value, 1)

        """ 遞迴建立左右子樹 """
        myTree[labels[bestFeat]]['>' + str(value)] = createTree(greaterDataSet, subLabels)
        myTree[labels[bestFeat]]['<=' + str(value)] = createTree(smallerDataSet, subLabels)
    return myTree


if __name__ == '__main__':
    dataSet, labels = createDataSet()
    print(createTree(dataSet, labels))
    #}}}

返回了:

{
  '日期': {
    '>728.0': 'yes',
    '<=728.0': {
      '寒冷': {
        'false': {
          '氣溫': {
            'high': {
              '氣候': {
                'hot': {
                  '天氣': {
                    'sunny': 'no',
                    'overcast': 'yes'
                  }
                },
                'mild': 'no'
              }
            },
            'normal': 'yes'
          }
        },
        'true': {
          '氣溫': {
            'high': {
              '氣候': {
                'hot': 'no',
                'mild': {
                  '天氣': {
                    'sunny': 'no',
                    'overcast': 'yes'
                  }
                }
              }
            },
            'normal': {
              '氣候': {
                'mild': 'yes',
                'cool': {
                  '天氣': {
                    'sunny': 'no',
                    'overcast': 'yes'
                  }
                }
              }
            }
          }
        }
      }
    }
  }
}

3. 決策樹的視覺化

上面的 json 結果看上去非常不清楚，我們可不可以畫出決策樹的樹結構呢？
我們可以利用 matplotlib 模組來實現樹結構的繪製：

# -*- coding: UTF-8 -*-
# {{{
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties


def getNumLeafs(myTree):
    """
    獲取決策樹葉子結點的數目

    :param myTree: 決策樹
    :return: 決策樹的葉子結點的數目
    """
    numLeafs = 0  # 初始化葉子
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]  # 獲取下一組字典
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':  # 測試該結點是否為字典，如果不是字典，代表此結點為葉子結點
            numLeafs += getNumLeafs(secondDict[key])
        else:
            numLeafs += 1
    return numLeafs


def getTreeDepth(myTree):
    """
    獲取決策樹的層數

    :param myTree: 決策樹
    :return: 決策樹的層數
    """
    maxDepth = 0  # 初始化決策樹深度
    firstStr = next(iter(
        myTree))  # python3中myTree.keys()返回的是dict_keys,不在是list,所以不能使用myTree.keys()[0]的方法獲取結點屬性，可以使用list(myTree.keys())[0]
    secondDict = myTree[firstStr]  # 獲取下一個字典
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':  # 測試該結點是否為字典，如果不是字典，代表此結點為葉子結點
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:
            thisDepth = 1
        if thisDepth > maxDepth: maxDepth = thisDepth  # 更新層數
    return maxDepth


def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    """
    繪製節點

    :param nodeTxt: 結點名
    :param centerPt: 文字位置
    :param parentPt: 標註的箭頭位置
    :param nodeType: 結點格式
    :return:
    """
    arrow_args = dict(arrowstyle="<-")  # 定義箭頭格式
    font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)  # 設定中文字型
    createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction',  # 繪製結點
                            xytext=centerPt, textcoords='axes fraction',
                            va="center", ha="center", bbox=nodeType, arrowprops=arrow_args, FontProperties=font)


def plotMidText(cntrPt, parentPt, txtString):
    """
    標註有向邊屬性值

    :param cntrPt: 當前節點
    :param parentPt: 父節點
    :param txtString: 標註內容
    :return:
    """
    xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]  # 計算標註位置
    yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)


def plotTree(myTree, parentPt, nodeTxt):
    """
    繪製決策樹

    :param myTree: 決策數字典
    :param parentPt: 父節點
    :param nodeTxt: 節點名
    :return:
    """
    decisionNode = dict(boxstyle="sawtooth", fc="0.8")  # 設定結點格式
    leafNode = dict(boxstyle="round4", fc="0.8")  # 設定葉結點格式
    numLeafs = getNumLeafs(myTree)  # 獲取決策樹葉結點數目，決定了樹的寬度
    firstStr = next(iter(myTree))  # 下個字典
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs)) / 2.0 / plotTree.totalW, plotTree.yOff)  # 中心位置
    plotMidText(cntrPt, parentPt, nodeTxt)  # 標註有向邊屬性值
    plotNode(firstStr, cntrPt, parentPt, decisionNode)  # 繪製結點
    secondDict = myTree[firstStr]  # 下一個字典，也就是繼續繪製子結點
    plotTree.yOff = plotTree.yOff - 1.0  
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    決策樹的構建、展示與決策
       
  
  
 1. 概述 
 上一篇日誌中，我們介紹了兩個決策樹構建演算法 – ID3、C4.5： 決策樹的構建演算法 – ID3 與 C4.5 演算法 本篇日誌我們來看看如何使用這兩個演算法以及其他工具構建和展示我們的決策樹 

  
 

    

    
    決策樹ID3、C4.5、CART、隨機森林的原理與例子
      
							
							
							
（寫在前面：作者是一名剛入學的模式識別專業的碩士生，第一次寫部落格，有錯誤的地方還請大家多多指教評論，一起交流呀~）
決策樹的基本流程
①劃分特徵的選擇（常見的選擇方法有：資訊增益、增益率、基尼指數，下文會詳細介紹）
②劃分停止準則：停止準則表示該節點不再劃分 

  
 

    

    
    離散型與連續型資料決策樹構建及列印實現 R語言，ID3，C4.5演算法
      
							
							
							本人的第一篇文章，趁著我們的資料探勘課設的時間，把實現的決策樹程式碼，拿出來分享下。有很多漏洞和缺陷，還有很多駭客思想的成分，但是總之，能實現，看網上的程式碼，能用的其實也沒幾個。廢話不多說，直接看程式碼

特別鳴謝博主skyonefly的程式碼 
附上鍊接：R 

  
 

    

    
    決策樹構建與深度節點數簡單例子
      
                
1、構建treePlotter.py
#coding:utf-8
import matplotlib.pyplot as plt

# 定義決策樹決策結果的屬性，用字典來定義  
# 下面的字典定義也可寫作 decisionNode={boxstyle:'sawtooth' 

  
 

    

    
    決策樹構建
      選擇   變量   question   mage   預測   id3   算法   特征選擇   pan   信息熵：
生活中的所見所聞，都接觸到許許多多的信息，有的信息對我們有用，有的無用。如 “地球是自轉的”，這條信息對我們沒什麽用，因為我們都知道，而且是確確實實是這樣的。香 

  
 

    

    
    Python爬蟲(三)——開封市58同城出租房決策樹構建
      off   parent   decision   second   string   pre   IE   for   爬蟲   決策樹框架：

 1 # coding=utf-8
 2 import matplotlib.pyplot as plt
 3 
 4 decisionNode = d 

  
 

    

    
    機器學習實戰（Machine Learning in Action）學習筆記————03.決策樹原理、原始碼解析及測試
      機器學習實戰（Machine Learning in Action）學習筆記————03.決策樹原理、原始碼解析及測試關鍵字：決策樹、python、原始碼解析、測試作者：米倉山下時間：2018-10-24機器學習實戰（Machine Learning in Action,@author: Peter Harr 

  
 

    

    
    決策樹的一些概念與探討
       
 
 決策樹通常包括三個步驟：特徵選擇、決策樹的生成、決策樹的修剪。 
 用決策樹分類，從根節點開始，對例項的某一特徵進行測試，根據測試結果，將例項分配到其子節點，這是每一個子節點對應該特徵的一個取值，如此遞迴地對例項進行測試並匹配，直至達到葉節點，最後將例項分到葉節點的類中。 
 決策樹的if-then 

  
 

    

    
    決策樹ID3、CART、C4.5之間的區別
      
                

歷史回顧：1984年提出的cart，1986年提出的ID3，1993年提出的c4.5

理論上總的來說，
C4.5是基於ID3優化後產出的演算法，主要優化了關於節點分支的計算方式，優化後解決了ID3分支過程中總喜歡偏向取值較多的屬性
ID3是資訊增益分支：



而CAR 

  
 

    

    
    決策樹----熵、資訊增益（ID3）、C4.、多方式原始碼實現
      
                談決策樹之前先做一些預備性知識：

1.什麼是資訊？如何衡量資訊的多少？怎麼衡量？

     資訊：從廣義上講，是事物運動時發出的訊號所帶來的訊息，是事物存在方式和運動規律的一種表現形式。不同的事物具有不同的存在方式和運動規律，從而構成了各種事物的不同特徵。資訊普遍存在於自 

  
 

    

    
    【python和機器學習入門2】決策樹2——決策樹構建
       
 
 
  
  參考部落格：決策樹實戰篇之為自己配個隱形眼鏡 （po主Jack-Cui,《——大部分內容轉載自 
                    
  參考書籍：《機器學習實戰》——第三章 
   

  
 

    

    
    通俗易懂--決策樹演算法、隨機森林演算法講解(演算法+案例)
      1.決策樹 
1.1從LR到決策樹 
相信大家都做過用LR來進行分類，總結一下LR模型的優缺點： 
優點 
 
  適合需要得到一個分類概率的場景。  
  實現效率較高。  
  很好處理線性特徵。  
 
缺點 
 
  當特徵空間很大時，邏輯迴歸的效能不是很好。  
  不能很好地處理大量多類特徵。   

  
 

    

    
    機器學習方法(四)：決策樹Decision Tree原理與實現技巧
      
							
							
							歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。  
技術交流QQ群：433250724，歡迎對演算法、技術、應用感興趣的同學加入。

前面三篇寫了線性迴歸，lasso，和LARS的一些內容，這篇寫一下決策樹這個經典的分 

  
 

    

    
    機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）
       
  
  
 
 
  文章目錄
  
   楔子
   變數
   方法
   
    資料預處理
    剪枝
    
     獲取待剪集：
     針對ID3，C4.5的剪枝
     
      損失函式的設計
      基於該損失函式的演算法描述
      基於該損失函式的程式碼實 

  
 

    

    
    機器學習(周志華) 參考答案 第四章 決策樹  python重寫版與畫樹演算法
      
							
							
							機器學習(周志華西瓜書) 參考答案 總目錄



機器學習(周志華) 參考答案 第四章 決策樹





3.試程式設計實現基於資訊熵進行劃分選擇的決策樹演算法，併為表4.3中資料生成一棵決策樹。 
最近在學著用python，所以用py重寫了以前的決策樹程式碼， 

  
 

    

    
    決策樹的實現原理與matlab程式碼
      
                
很久不寫部落格了，感覺很長一段時間只是一味的看書，疏不知一味地看書、寫程式碼會導致自己的思考以及總結能力變得衰弱。所以，我決定還是繼續寫部落格。廢話不多說了，今天想主要記錄資料探勘中的決策樹。希望能夠將自己的理解寫得通俗易懂。
決策樹是一種對例項分類的樹形結構，樹中包含葉子 

  
 

    

    
    模式識別：分類迴歸決策樹CART的研究與實現
      
							
							
							摘    要：本實驗的目的是學習和掌握分類迴歸樹演算法。CART提供一種通用的樹生長框架，它可以例項化為各種各樣不同的判定樹。CART演算法採用一種二分遞迴分割的技術，將當前的樣本集分為兩個子樣本集，使得生成的決策樹的每個非葉子節點都有兩個分支。因此，CART演 

  
 

    

    
    決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結
      
                
決策樹演算法中的ID3、c4.5、CART演算法，記錄如下：
    決策樹演算法：顧名思義，以二分類問題為例，即利用自變數構造一顆二叉樹，將目標變數區分出來，所有決策樹演算法的關鍵點如下：
    1.分裂屬性的選擇。即選擇哪個自變數作為樹叉，也就是在n個自變數中，優先選 

  
 

    

    
    轉載]決策樹ID3、C4.5、CART科普
      
                
轉載地址：http://blog.csdn.net/zhangping1987/article/details/23021381







2011年獲得了資料探勘領域最高榮譽獎KDD創新獎，昆蘭發明了著名的決策樹學習演算法ID3、C4.5，其個人主頁公佈了C4.5的C 

  
 

    

    
    雪飲者 決策樹系列（二）決策樹應用
      ssi   字符串長度   mes   pla   選擇   font   com   vector   nac   　　本篇以信息增益最大作為最優化策略來詳細介紹決策樹的決策流程。
　　首先給定數據集，見下圖
　　
註：本數據來源於網絡
本篇將以這些數據作為訓練數據（雖然少，但足以介紹清楚原理！），下圖是決

決策樹的構建、展示與決策

1. 概述

2. 使用 C4.5 構建決策樹

2.1. python 程式碼實現

3. 決策樹的視覺化

決策樹的構建、展示與決策

決策樹ID3、C4.5、CART、隨機森林的原理與例子

離散型與連續型資料決策樹構建及列印實現 R語言，ID3，C4.5演算法

決策樹構建與深度節點數簡單例子

決策樹構建

Python爬蟲(三)——開封市58同城出租房決策樹構建

機器學習實戰（Machine Learning in Action）學習筆記————03.決策樹原理、原始碼解析及測試

決策樹的一些概念與探討

決策樹ID3、CART、C4.5之間的區別

決策樹----熵、資訊增益（ID3）、C4.、多方式原始碼實現

【python和機器學習入門2】決策樹2——決策樹構建

通俗易懂--決策樹演算法、隨機森林演算法講解(演算法+案例)

機器學習方法(四)：決策樹Decision Tree原理與實現技巧

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

機器學習(周志華) 參考答案第四章決策樹 python重寫版與畫樹演算法

決策樹的實現原理與matlab程式碼

模式識別：分類迴歸決策樹CART的研究與實現

決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結

轉載]決策樹ID3、C4.5、CART科普

雪飲者決策樹系列（二）決策樹應用