決策樹演算法——熵與資訊增益（Python3實現）

阿新 • • 發佈：2019-02-20

1、熵、條件熵與資訊增益

（1）熵（entropy）

（2）條件熵（conditional entropy）

（3）資訊增益（information gain）

2、資訊增益演算法實現流程

2、資料集以及每個特徵資訊增益的計算

2.1貸款申請樣本資料表

表5.1 貸款申請樣本資料表

1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

2.2根據資訊增益準則選擇最優特徵

3、Python3實現熵與資訊增益選擇最優特徵

在編寫程式碼之前，我們先對資料集進行屬性標註。

年齡：0代表青年，1代表中年，2代表老年；
有工作：0代表否，1代表是；
有自己的房子：0代表否，1代表是；
信貸情況：0代表一般，1代表好，2代表非常好；
類別(是否給貸款)：no代表否，yes代表是。

程式碼實現如下：

# -*- coding: UTF-8 -*-
from math import log


"""
函式說明:建立測試資料集
"""
def createDataSet():
    dataSet = [[0, 0, 0, 0, 'no'],         #資料集
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 1, 'yes'],
               [0, 1, 1, 0, 'yes'],
               [0, 0, 0, 0, 'no'],
               [1, 0, 0, 0, 'no'],
               [1, 0, 0, 1, 'no'],
               [1, 1, 1, 1, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [2, 0, 1, 2, 'yes'],
               [2, 0, 1, 1, 'yes'],
               [2, 1, 0, 1, 'yes'],
               [2, 1, 0, 2, 'yes'],
               [2, 0, 0, 0, 'no']]
    labels = ['年齡', '有工作', '有自己的房子', '信貸情況']        #分類屬性
    return dataSet, labels                           #返回資料集和分類屬性


"""
函式說明:計算給定資料集的經驗熵(夏農熵)
Parameters:
    dataSet - 資料集
Returns:
    shannonEnt - 經驗熵(夏農熵)
"""
def calcShannonEnt(dataSet):
    numEntires = len(dataSet)                        #返回資料集的行數
    labelCounts = {}                                 #儲存每個標籤(Label)出現次數的字典
    for featVec in dataSet:                          #對每組特徵向量進行統計
        currentLabel = featVec[-1]                   #提取標籤(Label)資訊
        if currentLabel not in labelCounts.keys():   #如果標籤(Label)沒有放入統計次數的字典,新增進去
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1               #Label計數
    shannonEnt = 0.0                                 #經驗熵(夏農熵)
    for key in labelCounts:                          #計算夏農熵
        prob = float(labelCounts[key]) / numEntires  #選擇該標籤(Label)的概率
        shannonEnt -= prob * log(prob, 2)            #利用公式計算
    return shannonEnt                                #返回經驗熵(夏農熵)


"""
函式說明:按照給定特徵劃分資料集

Parameters:
    dataSet - 待劃分的資料集
    axis - 劃分資料集的特徵
    value - 需要返回的特徵的值
"""
def splitDataSet(dataSet, axis, value):
    retDataSet = []                                     #建立返回的資料集列表
    for featVec in dataSet:                             #遍歷資料集
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]             #去掉axis特徵
            reducedFeatVec.extend(featVec[axis+1:])     #將符合條件的新增到返回的資料集
            retDataSet.append(reducedFeatVec)
    return retDataSet                                   #返回劃分後的資料集


"""
函式說明:選擇最優特徵
Parameters:
    dataSet - 資料集
Returns:
    bestFeature - 資訊增益最大的(最優)特徵的索引值
"""
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1                     #特徵數量
    baseEntropy = calcShannonEnt(dataSet)                 #計算資料集的夏農熵
    bestInfoGain = 0.0                                    #資訊增益
    bestFeature = -1                                      #最優特徵的索引值
    for i in range(numFeatures):                          #遍歷所有特徵
        #獲取dataSet的第i個所有特徵
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)                         #建立set集合{},元素不可重複
        newEntropy = 0.0                                   #經驗條件熵
        for value in uniqueVals:                           #計算資訊增益
            subDataSet = splitDataSet(dataSet, i, value)           #subDataSet劃分後的子集
            prob = len(subDataSet) / float(len(dataSet))           #計運算元集的概率
            newEntropy += prob * calcShannonEnt(subDataSet)        #根據公式計算經驗條件熵
        infoGain = baseEntropy - newEntropy                        #資訊增益
        print("第%d個特徵的增益為%.3f" % (i, infoGain))             #列印每個特徵的資訊增益
        if (infoGain > bestInfoGain):                              #計算資訊增益
            bestInfoGain = infoGain                                #更新資訊增益，找到最大的資訊增益
            bestFeature = i                                        #記錄資訊增益最大的特徵的索引值
    return bestFeature                                             #返回資訊增益最大的特徵的索引值


if __name__ == '__main__':
    dataSet, features = createDataSet()
    entropy=calcShannonEnt(dataSet)
    bestfeature=chooseBestFeatureToSplit(dataSet)
    print("訓練集的熵為:%f"%(entropy))
    print("最優特徵索引值:" + str(bestfeature))

輸出結果為：

補充：

資訊增益比（增益率）

基尼指數

參考：統計學習方法——李航；機器學習實戰；機器學習——周志華。

決策樹演算法——熵與資訊增益（Python3實現）

1、熵、條件熵與資訊增益（1）熵（entropy）（2）條件熵（conditional entropy）（3）資訊增益（information gain） 2、資訊增益演算法實現流程 2、資料集以及每個特徵資訊增益的計算

通俗易懂的資訊熵與資訊增益（IE, Information Entropy; IG, Information Gain）

資訊熵與資訊增益（IE, Information Entropy; IG, Information Gain）資訊增益是機器學習中特徵選擇的關鍵指標，而學習資訊增益前，需要先了解資訊熵和條件熵這兩個重要概念。資訊熵（資訊量）資訊熵的意思就是一個變數i（就是這裡的類別）可能的

決策樹----熵、資訊增益（ID3）、C4.、多方式原始碼實現

談決策樹之前先做一些預備性知識： 1.什麼是資訊？如何衡量資訊的多少？怎麼衡量？資訊：從廣義上講，是事物運動時發出的訊號所帶來的訊息，是事物存在方式和運動規律的一種表現形式。不同的事物具有不同的存在方式和運動規律，從而構成了各種事物的不同特徵。資訊普遍存在於自

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

決策樹演算法原理與 Python實現

轉自： https://blog.csdn.net/huahuazhu/article/details/73167610?locationNum=2&fps=1 ###########################################

【深度學習基礎-03】決策樹演算法-熵如何計算舉例

目錄 0 機器學習中分類和預測演算法的評估： 1 什麼是決策樹/判定樹decision tree？ 2 決策樹“買電腦”實際例子 3.1熵（entropy）概念： 4 決策樹歸納演算法（ID3） 4.1遞迴演算法： 5 其他演算法 0 機器學習中分類和

資訊熵與資訊增益的理解

一資訊熵 1948年夏農提出了資訊熵（Entropy）的概念。假如事件A的分類劃分是（A1,A2,...,An），每部分發生的概率是(p1,p2,...,pn)，那資訊熵定義為公式如下：吳軍在《數學之美系列四--怎樣度量資訊？》中認為資訊熵的大小指的的

【資料結構】二叉樹的建立與遍歷（遞迴）

該程式全是使用遞迴的操作執行環境是：Dev-C++ #include <stdio.h> #include <stdlib.h> typedef struct node{ char data; struct node *lchild,*rchild; }bi

決策樹——機器學習實戰完整版（python 3）

import matplotlib.pyplot as plt # boxstyle是文字框型別 fc是邊框粗細 sawtooth是鋸齒形 '''xy是終點座標 xytext是起點座標可能疑問：為什麼說是終點，但是卻是箭頭從這出發的？解答：arrowstyle="<-" 看到沒有，這是個反

人工智慧之演算法知識與實戰篇（附資源）

寫在前頭 1、課程的選擇：選擇一門完整的演算法課程，並以此課程為主，系統性學習；公眾號或者其他材料都是輔助，裡面主要是零碎的知識。推薦業內經典課程。 2、本號不涉及技術層面的內容：沒有那個水平；前人已經有非常完善的課程體系機器學習篇 1、知識內容 2、

經典排序演算法----堆與堆排序（不穩定）

堆與堆排序（不穩定）穩定性分析我們知道堆的結構是節點i的孩子為2 * i和2 * i + 1節點，大頂堆要求父節點大於等於其2個子節點，小頂堆要求父節點小於等於其2個子節點。在一個長為n 的序列，堆排序的過程是從第n / 2開始和其子節點共3個值選擇最大（大頂堆）或者最小（小

演算法分析與設計基礎（清華版）

Taken from "Introduction to The Design and Analysis of Algorithms" by Anany Levitin 節選自《演算法設計與分析基礎》潘彥譯蠻力法就像寶劍不是撬棍一樣，科學也很少使用蠻力。 ——Edward Lytton (183

演算法題5：Excel表列序號（python3實現）

給定一個Excel表格中的列名稱，返回其相應的列序號。例如， A -> 1 B -> 2 C -> 3 ... Z -> 26 AA -> 27 AB -> 28 ... 示例 1:

演算法題4：迴文數（python3實現）

判斷一個整數是否是迴文數。迴文數是指正序（從左向右）和倒序（從右向左）讀都是一樣的整數。示例 1: 輸入: 121 輸出: true 示例 2: 輸入: -121 輸出: false 解釋: 從左向右讀, 為 -121 。從右向左讀, 為 121- 。因此它不是一個迴

演算法題3：兩數之和（python3實現）

給定一個整數陣列和一個目標值，找出陣列中和為目標值的兩個數。你可以假設每個輸入只對應一種答案，且同樣的元素不能被重複利用。示例: 給定 nums = [2, 7, 11, 15], target = 9 因為 nums[0] + nums[1] = 2 + 7 = 9 所以返回 [

演算法題2：最長公共字首（python3實現）

編寫一個函式來查詢字串陣列中的最長公共字首。如果不存在公共字首，返回空字串 ""。示例 1: 輸入: ["flower","flow","flight"] 輸出: "fl" 示例 2: 輸入: ["dog","racecar","car"] 輸

演算法題1：反轉整數（python3實現）

給定一個 32 位有符號整數，將整數中的數字進行反轉。示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21 注意: 假設我們的環境只能儲存 32 位有符號整數

LeetCode演算法題-Merge Sorted Array（Java實現）

這是悅樂書的第161次更新，第163篇原創 01 看題和準備今天介紹的是LeetCode演算法題中Easy級別的第20題（順位題號是88）。給定兩個排序的整數陣列nums1和nums2，將nums2中的元素合併到nums1中，並且作為一個排序的陣列。在nums1和nums2中初始化的元素個數分別為m和

LeetCode演算法題-Balanced Binary Tree（Java實現）

這是悅樂書的第167次更新，第169篇原創 01 看題和準備今天介紹的是LeetCode演算法題中Easy級別的第26題（順位題號是110）。給定二叉樹，判斷它是否是高度平衡的。對於此問題，高度平衡二叉樹定義為：一個二叉樹，其中每個節點的兩個子樹的深度從不相差超過1。例如：

LeetCode演算法題-Linked List Cycle（Java實現）

這是悅樂書的第176次更新，第178篇原創 01 看題和準備今天介紹的是LeetCode演算法題中Easy級別的第35題（順位題號是141）。給定一個連結串列，確定它是否有一個迴圈。本次解題使用的開發工具是eclipse，jdk使用的版本是1.8，環境是win7 64位系統，使用Java語言編寫和

決策樹演算法——熵與資訊增益（Python3實現）

相關推薦