關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
一、標準化(Z-Score),或者去除均值和方差縮放
公式為:(X-mean)/std 計算時對每個屬性/每列分別進行。
將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。
實現時,有兩種不同的方式:
-
使用sklearn.preprocessing.scale()函式,可以直接將給定資料進行標準化。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
-
使用sklearn.preprocessing.StandardScaler類,使用該類的好處在於可以儲存訓練集中的引數(均值、方差)直接使用其物件轉換測試集資料。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
二、將屬性縮放到一個指定範圍
除了上述介紹的方法之外,另一種常用的方法是將屬性縮放到一個指定的最大和最小值(通常是1-0)之間,這可以通過preprocessing.MinMaxScaler類實現。
使用這種方法的目的包括:
1、對於方差非常小的屬性可以增強其穩定性。
2、維持稀疏矩陣中為0的條目。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
當然,在構造類物件的時候也可以直接指定最大最小值的範圍:feature_range=(min, max),此時應用的公式變為:
X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
X_scaled=X_std/(max-min)+min
三、正則化(Normalization)
正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數為1),如果後面要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。
Normalization主要思想是對每個樣本計算其p-範數,然後對該樣本中每個元素除以該範數,這樣處理的結果是使得每個處理後樣本的p-範數(l1-norm,l2-norm)等於1。
p-範數的計算公式:||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p
該方法主要應用於文字分類和聚類中。例如,對於兩個TF-IDF向量的l2-norm進行點積,就可以得到這兩個向量的餘弦相似性。
1、可以使用preprocessing.normalize()函式對指定資料進行轉換:
1 2 3 4 5 6 7 8 9 |
|
2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換:
1 2 3 4 5 6 7 8 9 10 11 12 |
|
補充: