資訊增益與資訊增益率詳解

阿新 • • 發佈：2019-01-31

熟悉決策樹演算法的人都知道ID3以及C4.5兩種演算法，當然也非常清楚資訊增益以及資訊增益率兩個概念。

資訊增益：節點M的資訊熵E1與其全部子節點資訊熵之和E2的差。

資訊增益率：節點資訊增益與節點分裂資訊度量的比值。

資訊增益是ID3演算法的基礎，資訊增益率是C4.5演算法的基礎。同時，C4.5是ID3演算法的改進版，改進了某些情況下，決策樹構建過程中過擬合的問題。

首先說一下資訊增益：

在網上，我們可以輕鬆找到資訊增益的計算公式，乍一看，公式極為簡單，只是兩個熵減一下，但實際上，當我們去程式碼實現時，卻可能會遇到，究竟該如何計算Entropy(S)跟Gain(S,A)的問題。

S是樣本集合這句話描述的並不清晰，對於初學決策樹模型的人來說，把S說成所有位於節點M的樣本的集合，或許更為恰當。

之所以這麼說，是因為下圖

同樣是颳風的屬性，但是，樣本的數量卻發生的變化，這在決策樹的構建過程中是經常遇到的現象。

屬性會重複出現？有些人或許會感到不解，但是看weka使用J48跑測試樣例的結果，大家或許就能明瞭了。

在一條從上往下的路徑中，petalwidth屬性出現了兩次呢。

許多剛剛學習決策樹的人很難理解為什麼計算一個節點的時候需要用到樣本（誤以為是整個樣本）集合，其實這裡的樣本集合指的是，當前在某個節點N上的樣本集合SN；

使用數學話的形式表述資訊增益前，定義幾個常用的變數，使用變數表示節點A上的樣本集合，使用表示在節點A的全部樣本中屬於類別C_i的樣本數量，使用N_Am表示在節點A選擇屬性m的樣本數量，用

表示選擇屬性m的樣本中，屬於類別C_i的樣本數量。

這樣我們可以表示出節點A的熵為，注意，這裡直接使用了概率公式替換了前面公式中的p;

節點A的屬性有M個，所以Gain(S,A)即可表述成如下形式

有了資訊增益的實際表示式之後，我們再根據資訊增益率的描述寫出資訊增益率的表示式：

資訊增益比率實際在資訊增益的基礎上，又將其除以一個值，這個值一般被成為分裂資訊量，是將屬性可選值m作為劃分，計算節點上樣本總的資訊熵。

大家可以在網上找到如下公式：

必須說，直接去寫S很容易誤導人，所以我將公式重寫了一下，如下：

然後，我們將之前定義的變數代入到公式中，可以得到GainRatio(S_A,A)的最終表示式：

即：

大家一定要注意，計算節點熵和計算節點分類資訊量的時候，樣本的劃分標準一個是類別，一個是節點的可選屬性！！

最後的公式可能有點複雜，但是如果一點一點拼湊起來的話，其實很簡單，以此勉勵。

資訊增益與資訊增益率詳解

熟悉決策樹演算法的人都知道ID3以及C4.5兩種演算法，當然也非常清楚資訊增益以及資訊增益率兩個概念。資訊增益：節點M的資訊熵E1與其全部子節點資訊熵之和E2的差。資訊增益率：節點資訊增益與節點分裂資訊度量的比值。資訊增益是ID3演算法的基礎，資訊增益率是C4.5演算

通俗易懂的資訊熵與資訊增益（IE, Information Entropy; IG, Information Gain）

資訊熵與資訊增益（IE, Information Entropy; IG, Information Gain）資訊增益是機器學習中特徵選擇的關鍵指標，而學習資訊增益前，需要先了解資訊熵和條件熵這兩個重要概念。資訊熵（資訊量）資訊熵的意思就是一個變數i（就是這裡的類別）可能的

資訊熵與資訊增益的理解

一資訊熵 1948年夏農提出了資訊熵（Entropy）的概念。假如事件A的分類劃分是（A1,A2,...,An），每部分發生的概率是(p1,p2,...,pn)，那資訊熵定義為公式如下：吳軍在《數學之美系列四--怎樣度量資訊？》中認為資訊熵的大小指的的

最全的HTTP頭部資訊分析，HTTP頭部引數詳解

HTTP 頭部解釋 1. Accept：告訴WEB伺服器自己接受什麼介質型別，*/* 表示任何型別，type/* 表示該型別下的所有子型別，type/sub-type。 2. Accept-Charset：瀏覽器申明自己接收的字符集 Accept-Encoding：瀏覽器申

Linux用戶與用戶組詳解

不為密碼文件控制我們虛擬切換得到管理員字符 1,用戶和用戶組文件在linux中，用戶帳號，用戶密碼，用戶組信息和用戶組密碼均是存放在不同的配置文件中的。在linux系統中，所創建的用戶帳號和其相關信息(密碼除外)均是存放在/etc/passw

HTTP協議頭部與Keep-Alive模式詳解

兩個 conn exp uid iteye 想象 ket -c ack 1、什麽是Keep-Alive模式？我們知道HTTP協議采用“請求-應答”模式，當使用普通模式，即非KeepAlive模式時，每個請求/應答客戶和服務器都要新建一個連接，完成

spl_autoload_register與autoload的區別詳解

版本函數地址 call() ech log 自己的正常 lba 功能 spl_autoload_register(PHP 5 >= 5.1.2)spl_autoload_register — 註冊__autoload()函數說明bool spl_autoload_

基於C語言EOF與getchar的使用詳解

shp fct ongl jdb sys sgi utf lba egg %E8%AF%B7%E6%95%99%E9%AB%98%E6%89%8B%E5%A4%9A%E7%BA%BF%E7%A8%8B%E9%87%8C%E6%80%8E%E4%B9%88%E4%BD%BF%

Oracle 數據庫啟動與關閉各種方式詳解整理

歸檔模式 tro 需求 acl 提交管理操作 edi 存在 datafile 概述只有具備sysdba和sysoper系統特權的用戶才能啟動和關閉數據庫。在啟動數據庫之前應該啟動監聽程序，否則就不能利用命令方式來管理數據庫，包括啟動和關閉數據庫。雖然數據庫正常運行，

單片機I/O口推挽與開漏輸出詳解

多應用外部電路 20M 占用當我常見經典的 pull 推挽輸出:可以輸出高,低電平,連接數字器件;推挽結構一般是指兩個三極管分別受兩互補信號的控制,總是在一個三極管導通的時候另一個截止. 開漏輸出:輸出端相當於三極管的集電極. 要得到高電平狀態需要上拉電阻才行.

ServletConfig與ServletContext對象詳解

element sstream tel 配置信息 thread getattr 字符 servle ted ServletConfig與ServletContext對象詳解一、ServletConfig對象在Servlet的配置文件中，可以使用一個或多個<i

http與www服務概念詳解

互聯網HTTP超文本傳輸協議html頁面標記語言www萬維網端口21 ftp 22 ssh 25 smtp 3306 mysql 873 rsync 161 snmp 111 rpc 3389 80 443 https

Linux centos關機與重啟命令詳解與實戰

包含動作 /var/ proc 電源 sign 沒有時間數據丟失 Linux centos重啟命令：　　1、reboot 　　2、shutdown -r now 立刻重啟(root用戶使用) 　　3、shutdown -r 10 過10分鐘自動重啟(root用戶使

深入探討Linux靜態庫與動態庫的詳解（轉）

share 分享命名 one .com 過程程序簡單介紹 mage 2.生成動態庫並使用 linux下編譯時通過 -shared 參數可以生成動態庫（.so）文件，如下庫從本質上來說是一種可執行代碼的二進制格式，可以被載入內存中執行。庫分靜態庫和動態庫兩種。

AJAX 狀態值(readyState)與狀態碼(status)詳解

正在初始 exp char cep 區別 expect 方式分享 AJAX 狀態值(readyState)與狀態碼(status)詳解 1- AJAX狀態值與狀態碼區別AJAX狀態值是指，運行AJAX所經歷過的幾種狀態，無論訪問是否成功都將響應的步驟

python-->上傳與下載文件詳解

python宇暉關於客戶端與服務端關於上傳下載文件的總結：1，首先分別，創建一個函數:，用來創建客戶端與服務端。服務端：server = socket.socket()server.bind((‘localhost‘,9999))客戶端：client = socket.socket()client.conne

傳奇添加地圖與配置參數詳解

指定守護添加經驗 nor mod rand connect 參數詳解課程主題:（地圖添加與配置參數詳細講解）【相關工具】 1.D:\mirserver\Mir200\Envir\MapInfo.txt 地圖配置文件 2.D:\mirserver\Mir200\M

centos、linux關機與重啟命令詳解

說明哪些凍結而且密碼用戶 nal 最簡信號 Linux centos關機與重啟命令詳解與實戰　Linux centos重啟命令：　　1、reboot 　　2、shutdown -r now 立刻重啟(root用戶使用) 　　3、shutdown

CentOS7 - Nginx安裝目錄與編譯參數詳解

gpo json nginx安裝 access sco pid 設定鏈接 pat Nginx 安裝目錄詳解 [root@localhost yum.repos.d]# rpm -ql nginx # Nginx日誌輪轉，用於logrotate服務的日誌切割，定義周期，按天

ASA nat轉換詳解與擴展ACL詳解

前面是 nat 地址轉換後面是擴展acl AR1區 telnet AR2 經過ASA1 轉換流量配置如下：ASA配置：ASA Version 8.4(2)!hostname ciscoasaenable password 8Ry2YjIyt7RRXU24 encryptedpasswd 2KFQnbNIdI.

資訊增益與資訊增益率詳解

相關推薦