連續特徵進行離散化的方法介紹與應用例子

阿新 • • 發佈：2018-12-22

RT，尤其在logistic regression上，需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處，還可以引入非線性特性，也可以很方便的做cross-feature。

連續特徵離散化處理有什麼好的方法，有時候為什麼不直接歸一化？

這裡主要說明監督的變換方法；

連續性變數轉化成離散型變數大致有兩類方法：

（1）卡方檢驗方法；

（2）資訊增益方法；

一：卡方檢驗方法

1.1 分裂方法

1.2 合併方法

分裂方法，就是找到一個分裂點看，左右2個區間，在目標值上分佈是否有顯著差異，有顯著差異就分裂，否則就忽略。這個點可以每次找差異最大的點。合併類似，先劃分如果很小單元區間，按順序合併在目標值上分佈不顯著的相鄰區間，直到收斂。

二：資訊增益方法

2.1 分裂方法

2.2 合併方法

這個和決策樹的學習很類似。分裂方法，就是找到一個分裂點看，左右2個區間，看分裂前後資訊增益變化閾值，如果差值超過閾值（正值，分列前-分裂後資訊熵），則分裂。每次找差值最大的點做分裂點，直到收斂。合併類似，先劃分如果很小單元區間，按順序合併資訊增益小於閾值的相鄰區間，直到收斂。

參考文獻：

1 ： csdn部落格：

http://www.cnblogs.com/emanlee/archive/2008/10/25/1319569.html

採用資訊增益合併方法的連續特徵離散化程式：

import numpy as np
class

Feature_Discretization(object):
def __init__(self):
self.min_interval = 1
self.min_epos = 0.05
self.final_bin = []
def fit(self, x, y, min_interval = 1):
self.min_interval = min_interval
x = np.floor(x)
x = np.int32(x)
min_val = np.min(x)
bin_dict = {}
bin_li = []
for i in range(len(x)):
pos = (x[i] - min_val)/min_interval * min_interval + min_val
target = y[i]
bin_dict.setdefault(pos,[0,0])
if target == 1:
bin_dict[pos][0] += 1
else:
bin_dict[pos][1] += 1
for key ,val in bin_dict.iteritems():
t = [key]
t.extend(val)
bin_li.append(t)
bin_li.sort(cmp=None, key=lambda x : x[0], reverse=False)
print bin_li
L_index = 0
R_index = 1
self.final_bin.append(bin_li[L_index][0])
whileTrue:
L = bin_li[L_index]
R = bin_li[R_index]
# using infomation gain;
p1 = L[1]/ (L[1] + L[2] + 0.0)
p0 = L[2]/ (L[1] + L[2] + 0.0)
if p1 <= 1e-5or p0 <= 1e-5:
LGain = 0
else:
LGain = -p1*np.log(p1) - p0 * np.log(p0)
p1 = R[1]/ (R[1] + R[2] + 0.0)
p0 = R[2]/ (R[1] + R[2] + 0.0)
if p1 <= 1e-5or p0 <= 1e-5:
RGain = 0
else:
RGain = -p1*np.log(p1) - p0 * np.log(p0)
p1 = (L[1] + R[1])/ (L[1] + L[2] + R[1] + R[2] + 0.0)
p0 = (L[2] + R[2])/ (L[1] + L[2] + R[1] + R[2] + 0.0)
if p1 <= 1e-5or p0 <= 1e-5:
ALLGain = 0
else:
ALLGain = -p1*np.log(p1) - p0 * np.log(p0)
if np.absolute(ALLGain - LGain - RGain) <= self.min_epos:
# concat the interval;
bin_li[L_index][1] += R[1]
bin_li[L_index][2] += R[2]
R_index += 1
else:
L_index = R_index
R_index = L_index + 1
self.final_bin.append(bin_li[L_index][0])
if R_index >= len(bin_li):
break
print'feature bin:',self.final_bin
def transform(self,x):
res = []
for e in x:
index = self.get_Discretization_index(self.final_bin, e)
res.append(index)
res = np.asarray(res)
return res
def get_Discretization_index(self ,Discretization_vals, val ):
index = -1
for i in range(len(Discretization_vals)):
e = Discretization_vals[i]
if val <= e:
index = i
break
return index

連續特徵進行離散化的方法介紹與應用例子

連續特徵進行離散化的方法介紹與應用例子

連續特徵離散化方法介紹

連續系統的離散化方法

面經之連續值特徵做離散化的好處

＃＃＃＃＃好好好＃＃＃＃＃特徵離散化方法綜述

常用特徵離散化方法

資料視覺化（全綵）（大資料叢書，首次全面細緻地梳理了視覺化理論，方法工具與應用案例馬匡六教授石教英教授鼎力推薦，十

連續資料的離散化

特徵歸一化方法之選取

Weka中的有監督的離散化方法

基於資訊增益的離散化方法

降維和特徵選擇的關鍵方法介紹及MATLAB實現

Spring學習（十四）Spring Bean 的3種例項化方法介紹

12171 Sculpture 離散化，網格與點的轉化

第一課：安卓模擬器的介紹與應用

iOS中runtime(執行時)的簡單介紹與應用

Linux下proc檔案系統介紹與應用

【Zookeeper學習六】——開源客戶端ZKClient和Curator介紹與應用

Thrift介紹與應用（三）—hbase的thrift介面

Android 基礎：Fragment的介紹與應用，QQ底欄，側滑選單

連續特徵進行離散化的方法介紹與應用例子

相關推薦