離散化特徵的方法
阿新 • • 發佈:2018-12-22
在logistic regression上,需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處,還可以引入非線性特性,
模型會更穩定
連續性變數轉化成離散型變數大致有兩類方法:
(1)卡方檢驗方法;
(2)資訊增益方法;一: 卡方檢驗(X2檢驗)方法
1.1 分裂方法
1.2 合併方法
分裂方法,就是找到一個分裂點看,左右2個區間,在目標值上分佈是否有顯著差異,有顯著差異就分裂,否則就忽略。這個點可以每次找差異最大的點。 合併類似,先劃分為多個很小的單元區間,按順序合併在目標值上分佈不顯著的相鄰區間,直到收斂。二:資訊增益方法
2.1 分裂方法
2.2 合併方法
這個和決策樹的學習很類似。 分裂方法,就是找到一個分裂點看,左右2個區間,看分裂前後資訊增益變化閾值,如果差值超過閾值(正值,分列前-分裂後資訊熵),則分裂。每次找差值最大的點做分裂點,直到收斂。 合併類似,先劃分為多個很小的單元區間,按順序合併資訊增益小於閾值的相鄰區間,直到收斂。 (1)什麼是資訊增益?熵:表示隨機變數的不確定性。
條件熵:在一個條件下,隨機變數的不確定性。
資訊增益:熵 - 條件熵 在一個條件下,資訊不確定性減少的程度! 在特徵選擇的時候常常用資訊增益,如果IG(資訊增益大)的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的!