資訊熵---資訊不確定度
阿新 • • 發佈:2019-01-28
2 直觀解釋
資訊熵用來衡量資訊量的大小
若不確定性越大,則資訊量越大,熵越大
若不確定性越小,則資訊量越小,熵越小
比如A班對B班,勝率一個為x,另一個為1-x
則資訊熵為 -(xlogx + (1-x)log(1-x))
求導後容易證明x=1/2時取得最大,最大值為2
也就是說兩者勢均力敵時,不確定性最大,熵最大。
3 應用
資料探勘中的決策樹。
構建決策樹的過程,就是減小資訊熵,減小不確定性。從而完整構造決策樹模型。
所以我們需要在每一次選擇分支屬性時,計算這樣分類所帶來的資訊熵的增益,增益越大,不確定性越小,最終也就是我們要選擇的分支屬性。
首先我們會在未進行任何分類前求取一個資訊熵,這個資訊熵涉及到只是簡單的求取樣本標籤的分佈,然後按照公式求解資訊熵。
之後在選用某一個屬性作為分支屬性後,我們需要計算每一個子分支中的樣本標籤的分佈,然後計算每個子樣本的資訊熵,最後加權平均(期望),求得總的資訊熵。
計算前後兩個資訊熵的差值,選擇最大的增益屬性作為分支屬性。
一直遞迴下去,對每一個子樣本套用上述方法。直到所有的樣本都被歸類於某個葉節點,即不可再分為止。
以上方法是ID3方法,還有更好的C4.5方法
C4.5方法選用資訊增益比,克服了ID3使用資訊增益選擇屬性時偏向取值較多的屬性的不足。
除了可以處理離散型別的屬性,還可以處理連續型。
處理連續型屬性時,最重要的一步確定分割點。這裡同樣需要用到資訊增益比。
我們可以人工的為選擇一系列的分割點,然後分別計算被分割點分割的前後兩個區間的資訊熵,最後加權求得該分割點情況下的資訊熵。
最後取資訊增益最大的分割點作為分割條件。
簡而言之,和ID3相比,就是在計算分割點的時候,需要額外用到一次資訊增益法。