1. 程式人生 > >文字分類特徵選擇方法

文字分類特徵選擇方法

一個一個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量統越是有序,資訊熵就越低;反之,一個系統越亂,資訊熵就越高。所以,資訊熵也可以說是系統有序化程度的一個衡量。

資訊增益(特徵的)
是指期望資訊或者資訊熵的有效減少量對於一個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量。有它即資訊熵,無它則是條件熵。
條件熵:計算當一個特徵t不能變化時,系統的資訊量是多少。對於一個特徵X,它可能的取值有n多種(x1,x2,……,xn),計算每個值的條件熵,再取平均值。