1. 程式人生 > >離散化特徵的方法

離散化特徵的方法

在logistic regression上,需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處,還可以引入非線性特性, 模型會更穩定

連續性變數轉化成離散型變數大致有兩類方法:

(1)卡方檢驗方法;

(2)資訊增益方法;

一: 卡方檢驗(X2檢驗)方法

1.1 分裂方法

1.2 合併方法

分裂方法,就是找到一個分裂點看,左右2個區間,在目標值上分佈是否有顯著差異,有顯著差異就分裂,否則就忽略。這個點可以每次找差異最大的點。 合併類似,先劃分為多個很小的單元區間,按順序合併在目標值上分佈不顯著的相鄰區間,直到收斂。

二:資訊增益方法

2.1 分裂方法

2.2 合併方法

這個和決策樹的學習很類似。 分裂方法,就是找到一個分裂點看,左右2個區間,看分裂前後資訊增益變化閾值,如果差值超過閾值(正值,分列前-分裂後資訊熵),則分裂。每次找差值最大的點做分裂點,直到收斂。 合併類似,先劃分為多個很小的單元區間,按順序合併資訊增益小於閾值的相鄰區間,直到收斂。 (1)什麼是資訊增益?

熵:表示隨機變數的不確定性。

條件熵:在一個條件下,隨機變數的不確定性。

資訊增益:熵 - 條件熵 在一個條件下,資訊不確定性減少的程度! 在特徵選擇的時候常常用資訊增益,如果IG(資訊增益大)的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的!