決策樹（一）

阿新 • • 發佈：2018-12-06

# -*- coding: utf-8 -*-
"""
熵定義為資訊的期望值。
熵：表示隨機變數的不確定性。
條件熵：在一個條件下，隨機變數的不確定性。
資訊增益：熵 - 條件熵
在一個條件下，資訊不確定性減少的程度！
如果選擇一個特徵後，資訊增益最大（資訊不確定性減少的程度最大），那麼我們就選取這個特徵。
"""
from  math import log
"""
函式說明：建立測試集
Parameter：
    無
Returns:
    dataSet 資料集
    Labels  分類屬性
"""

def createDataSet():
    dataSet = [[0, 0, 0, 0, 'no'],         
            [0, 0, 0, 1, 'no'],
            [0, 1, 0, 1, 'yes'],
            [0, 1, 1, 0, 'yes'],
            [0, 0, 0, 0, 'no'],
            [1, 0, 0, 0, 'no'],
            [1, 0, 0, 1, 'no'],
            [1, 1, 1, 1, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [2, 0, 1, 2, 'yes'],
            [2, 0, 1, 1, 'yes'],
            [2, 1, 0, 1, 'yes'],
            [2, 1, 0, 2, 'yes'],
            [2, 0, 0, 0, 'no']]
    Labels = ['不放貸', '放貸']
    return dataSet, Labels

"""
函式說明：計算給定資料集的經驗熵（夏農熵）
Parameters:
    dataSet 資料集
Returns:
    shannonEnt 經驗熵
"""
def calcShannonEnt(dataSet):
    #返回資料集的行數
    numEntirs = len(dataSet)
    #儲存每個標籤出現次數的字典
    LabelCounts = {}
    #統計
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in LabelCounts.keys():
            #初始化值
            LabelCounts[currentLabel] = 0
        LabelCounts[currentLabel] += 1
        
    shannonEnt = 0.0
    for key in LabelCounts:
        #該標籤對應的概率
        prob = float(LabelCounts[key]) / numEntirs
        #
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

"""
函式說明：按照給定特徵劃分資料集
Parameters:
    dataSet 待劃分的資料集
    axis 劃分資料集的特徵
    value 需要返回的特徵值
Returns:
    retDataSet 返回的資料集列表
        
"""
def splitDataSet(dataSet, axis, value):
    #返回的資料集列表
    retDataSet = []
    for featVec in dataSet:
       if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            #將符合條件的新增到返回的資料集
            reducedFeatVec.extend(featVec[axis+1 : ])
            retDataSet.append(reducedFeatVec)
    return retDataSet
        
"""
函式說明：選擇最優特徵
Paramaters:
    dataSet
Returns:
    beatFeature 資訊增益最優的特徵的索引值
"""
def chooseBestFeatureToSplit(dataSet):
    #特徵數量
    numFeatures = len(dataSet[0]) - 1
    #計算資料集的夏農熵
    baseEntropy = calcShannonEnt(dataSet)
    #資訊增益
    bestInfoGain = 0.0
    #最優特徵的索引值
    bestFeature = -1
    for i in range(numFeatures):
        #獲取dataSet的第i個所有特徵
        #將dataSet中的資料先按行依次放入example中，
        #然後取得example中的example[i]元素，放入列表featList中
        #相當於取所有行的第一個值
        #之所以這樣取，是因為dataSet是個列表，而不是矩陣，矩陣取第一列有方法
        featList = [ example[i] for example in dataSet]
        #建立集合set,元素不可重複
        uniqueVals = set(featList)
        #經驗條件熵
        newEntropy = 0.0
        #計算資訊增益
        for value in uniqueVals:
            #subDataSet是劃分後的子集
            subDataSet = splitDataSet(dataSet, i, value)
            #計運算元集的概率
            prob = len(subDataSet) / float(len(dataSet))
            #計算經驗條件熵
            newEntropy += prob * calcShannonEnt(subDataSet)
            
        #資訊增益
        infoGain = baseEntropy - newEntropy
        #列印每個特徵的資訊增益
        print("第%d個特徵的增益為：%.3f" % (i, infoGain))
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

if __name__ == '__main__':
    dataSet, features = createDataSet()
    print("最優特徵索引值:" + str(chooseBestFeatureToSplit(dataSet)))

監督式學習 -- 分類決策樹（一）

cte 求解分支基本概念 tracking 它的解決 mat 這就是決策樹（decision tree）是一種基本的分類與回歸方法。其表示的樹型結構，能夠覺得是if-else規則的集合。基本的長處是分類可讀性好，速度快。一般會有三個步驟：特征選擇、決策樹的生成

決策樹（一）

1、舉例：關於什麼是決策樹（decision tree），我們先來看這麼一個例子。假如我錯過了看世界盃，賽後我問一個知道比賽結果的人“哪支球隊是冠軍”？他不願意直接告訴我，而讓我猜，並且每猜一次，他要收一元錢才肯告訴我是否猜對了，那麼我要掏多少錢才能知道誰是冠軍呢？我可以把球隊編上號，從1到1

決策樹（一）

# -*- coding: utf-8 -*- """ 熵定義為資訊的期望值。熵：表示隨機變數的不確定性。條件熵：在一個條件下，隨機變數的不確定性。資訊增益：熵 - 條件熵在一個條件下，資訊不確定性減少的程度！如果選擇一個特徵後，資訊增益最大（資訊不確定性減少的程度最大），那麼我們就選取這

機器學習實戰--決策樹（一）

決策樹是一種通過推斷分解，逐步縮小待推測事物範圍的演算法結構，重要任務就是理解資料中所蘊含的知識資訊，可以使用不熟悉的資料集合，並從中提取出一系列規則，根據資料集建立規則的過程就是機器學習的過程。優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特

機器學習實戰決策樹（一）——資訊增益與劃分資料集

from math import log #計算給定的熵 def calcsahnnonent(dataset): numentries = len(dataset) #計算例項的總數 labelcounts ={} #

決策樹（一）——基礎演算法

決策樹定義根據wikipedia的定義，決策樹學習方法是一種通過決策樹實現從某幾個特徵屬性（分枝）到目標值（葉節點）的預測模型。一種實現方法是貪心演算法：資料來源按照屬性測試條件分割為子集，然後在生成的每個子集上遞迴執行遞迴分割過程，直到該節點所有子集具有相同的目標變數。

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

數據結構之二叉樹（一）

reorder system style 序列 urn creat 編寫程序 space ont 設計和編寫程序，按照輸入的遍歷要求（即先序、中序和後序）完成對二叉樹的遍歷，並輸出相應遍歷條件下的樹結點序列。 1 //遞歸實現 2 #include

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

數據結構 - 從二叉搜索樹說到AVL樹（一）之二叉搜索樹的操作與詳解（Java）

判斷 right 不為 exist avl 輸入位置 bubuko get 　　二叉搜索樹（Binary Search Tree），簡稱BST，顧名思義，一顆可以用於搜索的二叉樹。BST在數據結構中占有很重要的地位，一些高級樹結構都是其的變種，例如AVL樹、紅黑樹等，因此

決策樹（三）分類算法小結

最大的可靠 dot 記錄依賴基礎判定樹每一個循環調用引言　　本文主要是對分類型決策樹的一個總結。在分類問題中，決策樹可以被看做是if-then規則的結合，也可以認為是在特定特征空間與類空間上的條件概率分布。決策樹學習主要分為三個步驟：特征選擇、決策樹的生成與

決策樹（四）決策樹調參

spa lin rep core lua 性能 lib bin target 引言　　在這篇文章中，我們將探討決策樹模型的最重要參數，以及它們如何防止過度擬合和欠擬合，並且將盡可能少地進行特征工程。我們將使用來自kaggle的泰坦尼克號數據。導入數據 import

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

哈爾濱工業大學計算機學院-模式識別-課程總結-貝葉斯決策理論（一）

風險沒有關系有關 href 屬性決策分類 tps 一、貝葉斯決策理論貝葉斯決策理論是解決分類問題的一種基本統計途徑，其出發點是利用概率的不同分類決策，與相應決策所付出的代價進行折中，它假設決策問題可以用概率的形式描述，並且假設所有有關的概率結構均已知。二、各種

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

GBDT梯度提升樹（一）

提升樹（例項）已知訓練資料如上表所示，x的取值範圍為區間[0.5,10.5]，y的取值範圍為區間[5.0,10.0]，學習這個迴歸問題的提升樹模型，考慮只用樹樁作為基函式。解既然是一個提升樹,

決策樹（二）分析與實踐

目錄 1 分析 1.1 背景： 1.2 定義 1.3 原理： CART如何選擇分裂的屬性？如何進行樹的剪枝來防止過擬合對於含有空值的資料，此時應該怎麼構建樹。 2.實踐：（《機器學習實戰》第九章程式碼解析） CART演算法的實現（運用到預剪枝）後剪枝演算

決策樹（三）剪枝

可以這樣理解，剪枝後剩下的計算損失函式比剪枝前更小。來源： https://blog.csdn.net/bird_fly_i/article/details/72824639?utm_sourc

決策樹（二）

也可以說，資訊量度量的是一個具體事件發生了所帶來的資訊，而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。即： 1.2 條件熵（可以理解為在給定某種條件下弄清這件事所需要的資訊量，其中給定某種條件後給

決策樹 （一）

相關推薦

決策樹（一）