離散化特徵的方法

阿新 • • 發佈：2018-12-22

在logistic regression上，需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處，還可以引入非線性特性，模型會更穩定

連續性變數轉化成離散型變數大致有兩類方法：

（1）卡方檢驗方法；

（2）資訊增益方法；

一： 卡方檢驗（X2檢驗）方法

1.1 分裂方法

1.2 合併方法

分裂方法，就是找到一個分裂點看，左右2個區間，在目標值上分佈是否有顯著差異，有顯著差異就分裂，否則就忽略。這個點可以每次找差異最大的點。合併類似，先劃分為多個很小的單元區間，按順序合併在目標值上分佈不顯著的相鄰區間，直到收斂。

二：資訊增益方法

2.1 分裂方法

2.2 合併方法

這個和決策樹的學習很類似。分裂方法，就是找到一個分裂點看，左右2個區間，看分裂前後資訊增益變化閾值，如果差值超過閾值（正值，分列前-分裂後資訊熵），則分裂。每次找差值最大的點做分裂點，直到收斂。合併類似，先劃分為多個很小的單元區間，按順序合併資訊增益小於閾值的相鄰區間，直到收斂。（1）什麼是資訊增益？

熵：表示隨機變數的不確定性。

條件熵：在一個條件下，隨機變數的不確定性。

資訊增益：熵 - 條件熵在一個條件下，資訊不確定性減少的程度！在特徵選擇的時候常常用資訊增益，如果IG（資訊增益大）的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的！

離散化特徵的方法

連續特徵進行離散化的方法介紹與應用例子

離散化特徵的方法

連續特徵離散化的方法

連續系統離散化的方法

特徵離散化系列(一)方法綜述

＃＃＃＃＃好好好＃＃＃＃＃特徵離散化方法綜述

常用特徵離散化方法

連續特徵離散化方法介紹

資料特徵歸一化/標準化方法

連續系統的離散化方法

面經之連續值特徵做離散化的好處

Weka中的有監督的離散化方法

機器學習特徵工程特徵離散化

acm資料預處理 —— 離散化的兩種方法

基於資訊增益的離散化方法

特徵工程--特徵離散化的意義

粒子群優化演算法(PSO)之基於離散化的特徵選擇(FS)（二）

離散型特徵的處理方法

邏輯迴歸LR的特徵為什麼要先離散化

連續特徵離散化和歸一化

離散化特徵的方法

相關推薦