決策樹（二）

阿新 • • 發佈：2018-12-06

# -*- coding: utf-8 -*-
"""
熵定義為資訊的期望值。
熵：表示隨機變數的不確定性。
條件熵：在一個條件下，隨機變數的不確定性。
資訊增益：熵 - 條件熵
在一個條件下，資訊不確定性減少的程度！
如果選擇一個特徵後，資訊增益最大（資訊不確定性減少的程度最大），那麼我們就選取這個特徵。
"""
from  math import log
import operator
"""
函式說明：建立測試集
Parameter：
    無
Returns:
    dataSet 資料集
    Labels  分類屬性
"""

def createDataSet():
    dataSet = [[0, 0, 0, 0, 'no'],         
            [0, 0, 0, 1, 'no'],
            [0, 1, 0, 1, 'yes'],
            [0, 1, 1, 0, 'yes'],
            [0, 0, 0, 0, 'no'],
            [1, 0, 0, 0, 'no'],
            [1, 0, 0, 1, 'no'],
            [1, 1, 1, 1, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [2, 0, 1, 2, 'yes'],
            [2, 0, 1, 1, 'yes'],
            [2, 1, 0, 1, 'yes'],
            [2, 1, 0, 2, 'yes'],
            [2, 0, 0, 0, 'no']]
    #Labels = ['不放貸', '放貸']
    Labels = ['年齡', '有工作', '有自己的房子', '信貸情況']
    return dataSet, Labels

"""
函式說明：計算給定資料集的經驗熵（夏農熵）
Parameters:
    dataSet 資料集
Returns:
    shannonEnt 經驗熵
"""
def calcShannonEnt(dataSet):
    #返回資料集的行數
    numEntirs = len(dataSet)
    #儲存每個標籤出現次數的字典
    LabelCounts = {}
    #統計
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in LabelCounts.keys():
            #初始化值
            LabelCounts[currentLabel] = 0
        LabelCounts[currentLabel] += 1
        
    shannonEnt = 0.0
    for key in LabelCounts:
        #該標籤對應的概率
        prob = float(LabelCounts[key]) / numEntirs
        #
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

"""
函式說明：按照給定特徵劃分資料集
Parameters:
    dataSet 待劃分的資料集
    axis 劃分資料集的特徵
    value 需要返回的特徵值
Returns:
    retDataSet 返回的資料集列表
        
"""
def splitDataSet(dataSet, axis, value):
    #返回的資料集列表
    retDataSet = []
    for featVec in dataSet:
       if featVec[axis] == value:
            #去掉axis特徵
            reducedFeatVec = featVec[:axis]
            #reducedFeatVec = []
            #將符合條件的新增到返回的資料集
            reducedFeatVec.extend(featVec[axis+1 : ])
            retDataSet.append(reducedFeatVec)
    return retDataSet
        
"""
函式說明：選擇最優特徵
Paramaters:
    dataSet
Returns:
    beatFeature 資訊增益最優的特徵的索引值
"""
def chooseBestFeatureToSplit(dataSet):
    #特徵數量
    numFeatures = len(dataSet[0]) - 1
    #計算資料集的夏農熵
    baseEntropy = calcShannonEnt(dataSet)
    #資訊增益
    bestInfoGain = 0.0
    #最優特徵的索引值
    bestFeature = -1
    for i in range(numFeatures):
        #獲取dataSet的第i個所有特徵
        #將dataSet中的資料先按行依次放入example中，
        #然後取得example中的example[i]元素，放入列表featList中
        #相當於取所有行的第一個值
        #之所以這樣取，是因為dataSet是個列表，而不是矩陣，矩陣取第一列有方法
        featList = [ example[i] for example in dataSet]
        #建立集合set,元素不可重複
        uniqueVals = set(featList)
        #經驗條件熵
        newEntropy = 0.0
        #計算資訊增益
        for value in uniqueVals:
            #subDataSet是劃分後的子集
            subDataSet = splitDataSet(dataSet, i, value)
            #計運算元集的概率
            prob = len(subDataSet) / float(len(dataSet))
            #計算經驗條件熵
            newEntropy += prob * calcShannonEnt(subDataSet)
            
        #資訊增益
        infoGain = baseEntropy - newEntropy
        #列印每個特徵的資訊增益
        #print("第%d個特徵的增益為：%.3f" % (i, infoGain))
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

"""
函式說明:統計classList中出現次數最多的元素（類標籤）
Parameters:
    classList 類標籤列表
Returns:
    sortedClassCount[0][0] 出現次數最多的元素（類標籤）
"""
def majorityCnt(classList):
    classCount = {}
    #統計classList中每個元素出現的次數
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    #根據字典的值降序排序
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
    return sortedClassCount[0][0]

"""
函式說明：建立決策樹
Parameters:
    dataSet 訓練集
    Labels 分類標籤
    featLabels 儲存選擇的最優特徵標籤
Returns:
    myTree 決策樹
"""
def createTree(dataSet, Labels, featLabels):
    #取dataSet每行的最後一列的元素構成新的列表
    #相當於取dataSet最後一列的值
    classList = [example[-1] for example in dataSet]
    #若類別完全相同就停止劃分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    #遍歷完所有特徵值返回出現次數最多的標籤
    if len(dataSet[0]) == 1 or len(Labels) == 0:
        return majorityCnt(classList)
    #選擇最優特徵值的索引
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = Labels[bestFeat]
    featLabels.append(bestFeatLabel)
    #生成決策樹
    myTree = {bestFeatLabel:{}}
    #刪除已經使用的特徵標籤
    del(Labels[bestFeat])
    #得到訓練集中所有最優特徵值的屬性值
    featValues = [example[bestFeat] for example in dataSet]
    #去除重複的屬性值
    uniqueVals = set(featValues)
    #遍歷特徵，建立決策樹
    for value in uniqueVals:
        myTree[bestFeatLabel][value] = createTree(
                splitDataSet(dataSet, bestFeat, value),
                Labels, featLabels)
    return myTree
"""
函式說明：使用決策樹分類
Parameters:
    imputTree 已經生成的決策樹
    featLabels 儲存選擇的最優特徵標籤
    testVec 測試集 順序對應最優特徵標籤
Returns:
    classLabel 分類結果
"""
def classify(inputTree, featLabels, testVec):
    #獲取決策樹節點
    firstStr = next(iter(inputTree))
    #下一個字典
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel
    
if __name__ == '__main__':
    dataSet, Labels = createDataSet()
    featLabels = []
    myTree = createTree(dataSet, Labels, featLabels)
    testVec = [0, 1]
    result = classify(myTree, featLabels, testVec)
    if result == 'yes':
        print('放貸')
    else:
        print('不放貸')

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

決策樹（二）分析與實踐

目錄 1 分析 1.1 背景： 1.2 定義 1.3 原理： CART如何選擇分裂的屬性？如何進行樹的剪枝來防止過擬合對於含有空值的資料，此時應該怎麼構建樹。 2.實踐：（《機器學習實戰》第九章程式碼解析） CART演算法的實現（運用到預剪枝）後剪枝演算

決策樹（二）

也可以說，資訊量度量的是一個具體事件發生了所帶來的資訊，而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。即： 1.2 條件熵（可以理解為在給定某種條件下弄清這件事所需要的資訊量，其中給定某種條件後給

決策樹（二）

# -*- coding: utf-8 -*- """ 熵定義為資訊的期望值。熵：表示隨機變數的不確定性。條件熵：在一個條件下，隨機變數的不確定性。資訊增益：熵 - 條件熵在一個條件下，資訊不確定性減少的程度！如果選擇一個特徵後，資訊增益最大（資訊不確定性減少的程度最大），那麼我們就選取這

決策樹（二）之CART的分析與實踐

1 分析 1.1 背景：線性迴歸的模型一般都要擬合所有的樣本點，但當資料擁有眾多特徵，並且特徵之間的關係十分的複雜，這時候往往是非線性的問題，很難構建全域性模型。方法：將資料集切分成很多份易建模的的資料，再線性迴歸（就像微分一樣的思想），一

機器學習入門-決策樹（二）

這篇文章主要是帶來機器學習西瓜書決策書這一章的程式設計習題。相比機器學習實戰中的對應章節有了一定的難度上的提升，主要體現在資料集中加入了連續值，對於連續值的處理不能夠和離散值同等對待，否則其不同值各自分為一類顯然資訊增益最大，但這樣在實際的應用中並沒有意義甚至適

【機器學習】決策樹（二）——通過例子理解構建過程

回顧前面我們簡單介紹了決策樹，以及資訊熵和條件熵的概念。提到構建決策樹的過程，那麼我們是如何根據特徵來構建決策樹的呢？決策樹的構建過程決策樹演算法的重點就是決策樹的構造；決策樹的構造就是進行屬性選擇度量確定各個特徵之間的樹結構；構建決策樹的關鍵步驟就是分

機器學習(十二) 決策樹（上）

決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。

python決策樹（二叉樹、樹）的視覺化

問題描述在我學習機器學習實戰-決策樹部分，欲視覺化決策樹結構。最終視覺化結果：解決方案決策樹由巢狀字典組成，如： {“no surfacing”: {0: “no”, 1: {“flippers”: {0: “no”, 1: “yes”}}}}

《機器學習實戰》學習（二）——決策樹（DT）

1、決策樹簡述決策樹學習是一種逼近離散值目標函式的方法，在這種方法中學習到的函式被表示為一棵決策樹。在周志華老師的《機器學習》這本書中專門一章節對決策樹進行了講述。並對id3演算法後的改進演算法也做了相應的介紹。決策樹容易導致過擬合現象，介紹了預剪枝和後剪枝

監督式學習 -- 分類決策樹（一）

cte 求解分支基本概念 tracking 它的解決 mat 這就是決策樹（decision tree）是一種基本的分類與回歸方法。其表示的樹型結構，能夠覺得是if-else規則的集合。基本的長處是分類可讀性好，速度快。一般會有三個步驟：特征選擇、決策樹的生成

線段樹（二）

ref class 搜索 turn 們的 highlight print log max-width 轉自：http://blog.csdn.net/liujian20150808/article/details/51137749 1.線段樹的定義：線段樹是一種二叉搜

數據結構之二叉樹（二）

創建 int iter out for 結點 spa left nbsp 輸出二叉樹中所有從根結點到葉子結點的路徑 1 #include <iostream> 2 #include <vector> 3 us

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

軟件性能測試技術樹（二）----Linux服務器性能

bsp 分析處理方法性能測試 linux ron j2e 跳轉實時全圖：測試目的：測試範圍&性能指標：測試與生產環境服務器配置不同的處理方法：實時CPU監控：實時內存監控：實時網絡監控：實時磁盤監控：萬能命令： Linux

決策樹（三）分類算法小結

最大的可靠 dot 記錄依賴基礎判定樹每一個循環調用引言　　本文主要是對分類型決策樹的一個總結。在分類問題中，決策樹可以被看做是if-then規則的結合，也可以認為是在特定特征空間與類空間上的條件概率分布。決策樹學習主要分為三個步驟：特征選擇、決策樹的生成與

決策樹（四）決策樹調參

spa lin rep core lua 性能 lib bin target 引言　　在這篇文章中，我們將探討決策樹模型的最重要參數，以及它們如何防止過度擬合和欠擬合，並且將盡可能少地進行特征工程。我們將使用來自kaggle的泰坦尼克號數據。導入數據 import

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

決策樹（三）剪枝

可以這樣理解，剪枝後剩下的計算損失函式比剪枝前更小。來源： https://blog.csdn.net/bird_fly_i/article/details/72824639?utm_sourc

決策樹（一）

1、舉例：關於什麼是決策樹（decision tree），我們先來看這麼一個例子。假如我錯過了看世界盃，賽後我問一個知道比賽結果的人“哪支球隊是冠軍”？他不願意直接告訴我，而讓我猜，並且每猜一次，他要收一元錢才肯告訴我是否猜對了，那麼我要掏多少錢才能知道誰是冠軍呢？我可以把球隊編上號，從1到1

決策樹 （二）

相關推薦

決策樹（二）