決策樹演算法2-決策樹分類原理2.2-資訊增益
阿新 • • 發佈:2021-09-22
決策樹的劃分依據--資訊增益
1 概念
1.1 定義
-
資訊增益:以某特徵劃分資料集前後的熵的差值。熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。因此可以使用劃分前後集合熵的差值來衡量使用當前特徵對於樣本集合D劃分效果的好壞。
-
資訊增益 = entroy(前) - entroy(後)
注:資訊增益表示得知特徵X的資訊而使得類Y的資訊熵減少的程度
1.2 公式
- 假定離散屬性a有v個可能的取值\((a^1,a^2,...,a^v)\),若使用a來對樣本集D進行劃分,則會產生v個分支結點,其中第v個分支結點包含了D中所有在屬性a上取值為\(a^v\)的樣本,記\(D^v\)
- 特徵a對訓練資料集D的資訊增益Gain(D,a),定義為集合D的資訊熵Ent(D)與給定特徵a條件下D的資訊條件熵Ent(D|a)Ent(D∣a)之差,即公式為:
資訊熵的計算:
條件熵的計算:
其中:
\(D^v\)表示a屬性中第v個分支節點包含的樣本數
\(C^{kv}\)表示a屬性中第v個分支節點包含的樣本數中,第k個類別下包含的樣本數 - 資訊增益越大,則意味著使用屬性 a 來進行劃分所獲得的"純度提升"越大。因此,我們可用資訊增益來進行決策樹的劃分屬性選擇,著名的 ID3( ID 是 Iterative Dichotomiser 迭代二分器的簡稱) 決策樹學習演算法 [Quinlan, 1986] 就是以資訊增益為準則來選擇劃分屬性。
2 案例
如下圖,第一列為論壇號碼,第二列為性別,第三列為活躍度,最後一列使用者是否流失。我們要解決一個問題:性別和活躍度兩個特徵,哪個對使用者流失影響更大?
其中Positive為正樣本(已流失),Negative為負樣本(未流失),下面的數值為不同劃分下對應的人數。
a.計算類別資訊熵
b.計算性別屬性的資訊熵(a="性別")
c.計算性別的資訊增益(a="性別")
b.計算活躍度屬性的資訊熵(a="活躍度")
c.計算活躍度的資訊增益(a="活躍度")
結論:活躍度的資訊增益比性別的資訊增益大,也就是說,活躍度對使用者流失的影響比性別大。在做特徵選擇或者資料分析的時候,我們應該重點考察活躍度這個指標。