1. 程式人生 > >資料預處理之定量特徵二值化與定性特徵啞變數編碼

資料預處理之定量特徵二值化與定性特徵啞變數編碼

1. 定量特徵二值化   

   在資料探勘領域,定量特徵二值化的目的是為了對定量的特徵進行“好與壞”的劃分,以剔除冗餘資訊。舉個例子,銀行對5名客戶的徵信進行打分,分別為50,60,70,80,90。現在,我們不在乎一個人的徵信多少分,只在乎他的徵信好與壞(如大於90為好,低於90就不好);再比如學生成績,大於60及格,小於60就不及格。這種“好與壞”、“及格與不及格”的關係可以轉化為0-1變數,這就是二值化。變化方式如下所示:

                         

from sklearn.preprocessing import Binarizer
#閾值設定為3,對x的每一個元素都進行二值化
Binarizer(threshold=3).fit_transform(x)      

         2. 定性特徵啞編碼