ID3決策樹

阿新 • • 發佈：2018-12-25

資訊熵與資訊增益：

熵代表資訊的混亂程度。一個特徵的熵越小，說明這個特徵的資訊越純淨，價值越大，用總的資訊熵減去該特徵資訊熵的資訊增益就越大，越應該在初始的時候作為劃分資料集的特徵。

實現程式碼：（環境為Python3.x）

from numpy import *
from math import log
import operator

#建立資料集
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

#計算夏農熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt


#按照給定特徵劃分資料集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#選擇最佳劃分資料集的特徵
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#構建決策樹
def createTree(dataSet, labels):
    subLabels = labels[:]
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = subLabels[bestFeat]
    myTree = {bestFeatLabel: {}}
    del(subLabels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

#功能函式：選取列表中出現最多的元素
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] = 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

#測試決策樹分類
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

if(__name__=="__main__"):
    dataSet, labels = createDataSet()
    myTree = createTree(dataSet, labels)
    print(myTree)
    result = classify(myTree, labels, [1, 0])
    print(result)

ID3決策樹中連續值的處理+周志華《機器學習》圖4.8和圖4.10繪製

轉載自 https://blog.csdn.net/Leafage_M/article/details/80137305 用一句話總結這篇部落格的內容就是: 對於當前n條資料,相鄰求平均值,得到n-1個分割值,要點如下: ①連續數值特徵的熵計算就是對上面的n-1個分割值不停嘗試, 嘗試得

ID3決策樹（python實現）

決策樹的生成（該函式是一個遞迴的過程）CreateTree 輸入：資料集、特徵輸出：字典型資料——決策樹 a、判斷是否滿足停止劃分的條件若當前資料集的屬性值為空，則投票表決當前樣本中最多的類別若當前所有的樣本類別相同，則返回當前資料的類別。

ID3決策樹程式碼詳解（weka平臺）

1 ID3演算法流程理論知識不必多講，下面講解ID3演算法的工作流程，以西瓜書為例： 2 演算法程式碼講解 2.1 前提必知 2.2 演算法流程 3:程式碼整個演算法實際就 makeTree和distributionForInsta

[機器學習]ID3決策樹詳細計算流程周志華機器學習筆記原創Excel手算方法

1.用到的主要三條熵公式： 1.1 資訊熵詳情見夏農資訊理論概率越平衡事件所含有的資訊量越大 1.2 條件熵代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益等於資訊熵減去條件熵，從數值上，越大的資訊增益在資訊熵一定的情況下，代表條件熵越小，條件熵越

ID3決策樹

資訊熵與資訊增益：熵代表資訊的混亂程度。一個特徵的熵越小，說明這個特徵的資訊越純淨，價值越大，用總的資訊熵減去該特徵資訊熵的資訊增益就越大，越應該在初始的時候作為劃分資料集的特徵。實現程式碼：（環境為Python3.x） from numpy import *

《python資料分析和資料探勘》——ID3決策樹學習筆記

ID3決策樹決策樹在分類預測和規則提取中有著廣泛的應用。他是一樹狀結構，每一個節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分成若干個子集。構造決策樹的核心問題就是如何選擇適當的屬性對樣本進行拆分。基本原理 ————————希望自己能用

機器學習入門演算法及其java實現-ID3(決策樹)演算法

ID3決策樹也是決策樹的一種，其作用在於根據已有資料訓練決策樹，並通過決策樹的分支實現對新資料的分類，是一種有監督的學習。在生成決策樹的過程中，ID3使用的資訊熵增益對子節點類別進行確定。根據資訊熵越是有序的資料熵值越低，資訊熵增益越大表示當前屬性對於資料的

ID3決策樹的生成

# coding=utf-8 import math ''' 決策樹模型，假設有三個條件年齡，有三個選項 1 表示老年人 2 表示中年人 3 表示青年人工作，有兩個選項 1 表示有工作 2表示沒有工作房子，有兩個選項

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

《電腦科學》 2010年部分摘要：指出了該演算法的取指偏向性以及運算效率不高等缺點，在此基礎上提出了改進的ID3演算法，該演算法通過引入先驗知識度引數，有效克服ID3演算法中的取值偏向性和運算效率

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

ID3算法實現的決策樹生成

log 相關 com https mage 代碼 logs master es2017 代碼地址 https://coding.net/u/mich/p/easytry/git/tree/master/src/com/ml 目錄結構 decision目錄下主要為決策樹的相

鵝廠優文 | 決策樹及ID3算法學習

存在常用種類每一個 cool HR 理論腳本無限歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~。作者：袁明凱|騰訊IEG測試開發工程師決策樹的基礎概念決策樹是一種用樹形結構來輔助行為研究、決策分析以及機器學習的方式，是機器學習中的一種基本的

決策樹之ID3算法

dex 信息增益 lan 進入根據 keys one 回顧改進一、決策樹之ID3算法簡述　　1976年-1986年，J.R.Quinlan給出ID3算法原型並進行了總結，確定了決策樹學習的理論。這可以看做是決策樹算法的起點。1993，Quinlan將ID3算法改進

決策樹演算法（ID3，C4.5，CART）

ID3，C4.5，CART是是決策樹的核心演算法。它們都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 1.ID3演算法 ID3演算法遞迴地構建決策樹，從根節點開始，對所有特徵計算資訊增益，選擇資訊增益最大的特徵作為節點的特徵，由該特徵的不同取值建

ID3的REP（Reduced Error Pruning）剪枝程式碼詳細解釋+周志華《機器學習》決策樹圖4.5、圖4.6、圖4.7繪製

處理資料物件:離散型資料資訊計算方式：熵資料集：西瓜資料集2.0共17條資料訓練集（用來建立決策樹）：西瓜資料集2.0中的第1,2,3,6,7,10,14,15,16,17,4 請注意，書上說是10條，其實是上面列出的11條。驗證集（用來對決策樹剪枝）：西瓜資料集2.0中的5,8

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

決策樹演算法--ID3

原創：袁恆 Refinitiv創新實驗室ARGO 9月17日稽核：施天璐單華傅佳編輯：張翔一什麼是決策樹決策樹是機器學習方法中的一種監督學習演算法，表示根據特徵對樣本進行分類的樹形結構，可以用於分類和迴歸。它的思路大概是這樣

1.決策樹（decision tree）演算法（ID3）

0.機器學習中分類和預測演算法的評估：準確率速度強壯性可規模性可解釋性 1.什麼是決策樹/判定樹（decision tree）? 1.1.判定書是一個類似於流程圖的樹結構：其中，每個內部結點表示在一個屬性上的測試，每個分支代表一個屬

ID3決策樹

相關推薦