資料縮放方法總結
一、標準化(Z-Score),或者去除均值和方差縮放
標準分數(standard score)也叫z分數(z-score),是一個分數與平均數的差再除以標準差的過程。用公式表示為:z=(x-μ)/σ。其中x為某一具體分數,μ為平均數,σ為標準差。
Z值的量代表著原始分數和母體平均值之間的距離,是以標準差為單位計算。在原始分數低於平均值時Z則為負數,反之則為正數。
標準分數的作用和特點:
標準分數可以回答這樣一個問題:"一個給定分數距離平均數多少個標準差?"在平均數之上的分數會得到一個正的標準分數,在平均數之下的分數會得到一個負的標準分數。
標準分數是一種可以看出某分數在分佈中相對位置的方法。標準分數能夠真實的反應一個分數距離平均數的相對標準距離。如果我們把每一個分數都轉換成標準分數,那麼每一個標準分數會以標準差為單位表示一個具體分數到平均數的距離或離差。將成正態分佈的資料中的原始分數轉換為標準分數,我們就可以通過查閱標準分數在正態曲線下面積的表格來得知平均數與標準分數之間的面積,進而得知原始分數在資料集合中的百分等級。[1]
一個數列的各標準分數的平方和等於該數列資料的個數,並且標準分數的標準差和方差都為1。
例如:某中學高(1)班期末考試,已知語文期末考試的全班平均分為73分,標準差為7分,甲得了78分;數學期末考試的全班平均分為80分,標準差為6.5分,甲得了83分。甲哪一門考試成績比較好?
因為兩科期末考試的標準差不同,因此不能用原始分數直接比較。需要將原始分數轉換成標準分數,然後進行比較。
Z(語文)=(78-73)/7=0.71 Z(數學)=(83-80)/6.5=0.46 甲的語文成績在其整體分佈中位於平均分之上0.71個標準差的地位,他的數學成績在其整體分佈中位於平均分之上0.46個標準差的地位。由此可見,甲的語文期末考試成績優於數學期末考試成績。
由於標準分數不僅能表明原始分數在分佈中的地位,它還是以標準差為單位的等距量表,故經過把原始分數轉化為標準分數,可以在不同分佈的各原始分數之間進行比較。
特點:
(1)樣本平均值為0,方差為1;
(2)區間不確定,處理後各指標的最大值、最小值不相同;
(3)對於指標值恆定的情況不適用;
(4)對於要求標準化後資料 大於0 的評價方法(如幾何加權平均法)不適用。
實現時,有兩種不同的方式:
-
使用sklearn.preprocessing.scale()函式,可以直接將給定資料進行標準化。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
-
使用sklearn.preprocessing.StandardScaler類,使用該方法的好處在於可以儲存訓練集中的引數(均值、方差)直接使用其物件轉換測試集資料。
-
仔細閱讀官方文件發現,fit方法是用於從一個訓練集中學習模型引數,其中就包括了歸一化時用到的均值,標準偏差。fit_transform()就很高效的將模型訓練和轉化合併到一起,訓練樣本先做fit,得到mean,standard deviation,然後將這些引數用於transform(歸一化訓練資料),使得到的訓練資料是歸一化的,而測試資料只需要在原先得到的mean,std上來做歸一化就行了,所以用transform就行了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
>>>scaler
|
二、將屬性縮放到一個指定範圍
除了上述介紹的方法之外,另一種常用的方法是將屬性縮放到一個指定的最大和最小值(通常是1-0)之間,這可以通過preprocessing.MinMaxScaler類實現。
使用這種方法的目的包括:
1、對於方差非常小的屬性可以增強其穩定性。
2、維持稀疏矩陣中為0的條目。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
當然,在構造類物件的時候也可以直接指定最大最小值的範圍:feature_range=(min,max),此時應用的公式變為:
X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
X_scaled=X_std/(max-min)+min
三、正則化(Normalization)
正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數為1),如果後面要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。
Normalization主要思想是對每個樣本計算其p-範數,然後對該樣本中每個元素除以該範數,這樣處理的結果是使得每個處理後樣本的p-範數(l1-norm,l2-norm)等於1。
p-範數的計算公式:||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p
該方法主要應用於文字分類和聚類中。例如,對於兩個TF-IDF向量的l2-norm進行點積,就可以得到這兩個向量的餘弦相似性。
1、可以使用preprocessing.normalize()函式對指定資料進行轉換:
1 2 3 4 5 6 7 8 9 |
|
2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換:
1 2 3 4 5 6 7 8 9 10 11 12 |
|
補充: