sklearn.preprocessing之StandardScaler與Normalizer

阿新 • • 發佈：2018-11-26

一、標準化（Z-Score），或者去除均值和方差縮放

公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

實現時，有兩種不同的方式：

使用sklearn.preprocessing.scale()函式，可以直接將給定資料進行標準化。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

>>> from sklearn import preprocessing >>> import numpy as np >>> X = np.array([[ 1 ., - 1

., 2 .], ... [ 2 ., 0 ., 0 .], ... [

0 ., 1 ., - 1 .]]) >>> X_scaled = preprocessing.scale(X) >>> X_scaled array([[ 0 . ..., - 1.22 ..., 1.33 ...], [ 1.22 ..., 0 . ..., - 0.26 ...], [- 1.22 ..., 1.22 ..., - 1.06 ...]]) >>>#處理後資料的均值和方差 >>> X_scaled.mean(axis= 0 ) array([ 0 ., 0 ., 0 .]) >>> X_scaled.std(axis= 0 ) array([ 1 ., 1 ., 1 .])

使用sklearn.preprocessing.StandardScaler類，使用該類的好處在於可以儲存訓練集中的引數（均值、方差）直接使用其物件轉換測試集資料。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 >>> scaler = preprocessing.StandardScaler().fit(X) >>> scaler StandardScaler(copy = True , with_mean = True , with_std = True ) >>> scaler.mean_ array([ 1. ..., 0. ..., 0.33 ...]) >>> scaler.std_ array([ 0.81 ..., 0.81 ..., 1.24 ...]) >>> scaler.transform(X) array([[ 0. ..., - 1.22 ..., 1.33 ...], [ 1.22 ..., 0. ..., - 0.26 ...], [ - 1.22 ..., 1.22 ..., - 1.06 ...]]) >>> #可以直接使用訓練集對測試集資料進行轉換 >>> scaler.transform([[ - 1. , 1. , 0. ]]) array([[ - 2.44 ..., 1.22 ..., - 0.26 ...]])

二、將屬性縮放到一個指定範圍

除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類實現。

使用這種方法的目的包括：

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 >>> X_train = np.array([[ 1. , - 1. , 2. ], ... [ 2. , 0. , 0. ], ... [ 0. , 1. , - 1. ]]) ... >>> min_max_scaler = preprocessing.MinMaxScaler() >>> X_train_minmax = min_max_scaler.fit_transform(X_train) >>> X_train_minmax array([[ 0.5 , 0. , 1. ], [ 1. , 0.5 , 0.33333333 ], [ 0. , 1. , 0. ]]) >>> #將相同的縮放應用到測試集資料中 >>> X_test = np.array([[ - 3. , - 1. , 4. ]]) >>> X_test_minmax = min_max_scaler.transform(X_test) >>> X_test_minmax array([[ - 1.5 , 0. , 1.66666667 ]]) >>> #縮放因子等屬性 >>> min_max_scaler.scale_ array([ 0.5 , 0.5 , 0.33 ...]) >>> min_max_scaler.min_ array([ 0. , 0.5 , 0.33 ...])

當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std/(max-min)+min

三、正則化（Normalization）

正則化的過程是將每個樣本縮放到單位範數（每個樣本的範數為1），如果後面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

Normalization主要思想是對每個樣本計算其p-範數，然後對該樣本中每個元素除以該範數，這樣處理的結果是使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。

p-範數的計算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如，對於兩個TF-IDF向量的l2-norm進行點積，就可以得到這兩個向量的餘弦相似性。

1、可以使用preprocessing.normalize()函式對指定資料進行轉換：

1 2 3 4 5 6 7 8 9 >>> X = [[ 1. , - 1. , 2. ], ... [ 2. , 0. , 0. ], ... [ 0. , 1. , - 1. ]] >>> X_normalized = preprocessing.normalize(X, norm = 'l2' ) >>> X_normalized array([[ 0.40 ..., - 0.40 ..., 0.81 ...], [ 1. ..., 0. ..., 0. ...], [ 0. ..., 0.70 ..., - 0.70 ...]])

2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換：

1 2 3 4 5 6 7 8 9 10 11 12 >>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing >>> normalizer Normalizer(copy = True , norm = 'l2' ) >>> >>> normalizer.transform(X) array([[ 0.40 ..., - 0.40 ..., 0.81 ...], [ 1. ..., 0. ..., 0. ...], [ 0. ..., 0.70 ..., - 0.70 ...]]) >>> normalizer.transform([[ - 1. , 1. , 0. ]]) array([[ - 0.70 ..., 0.70 ..., 0. ...]])

補充：

轉載自：https://www.cnblogs.com/chaosimple/p/4153167.html

sklearn.preprocessing之StandardScaler與Normalizer

一、標準化（Z-Score），或者去除均值和方差縮放

二、將屬性縮放到一個指定範圍

三、正則化（Normalization）

sklearn.preprocessing之StandardScaler與Normalizer

sklearn.preprocessing.StandardScaler 離線使用不使用pickle如何做

sklearn.preprocessing中對資料的標準化（ StandardScaler）

機器學習之資料預處理（sklearn preprocessing）

Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

pandas 下的 one hot encoder 及 pd.get_dummies() 與 sklearn.preprocessing 下的 OneHotEncoder 的區別

全文索引-lucene，solr，nutch，hadoop之nutch與hadoop

GoLang之buffer與bytes包

WCF系列教程之消息交換模式之請求與答復模式(Request/Reply)

CentOS之7與6的區別

HTML5之元素與標簽結構

#14 文件查找之locate與find

selenium之 chromedriver與chrome版本映射表(更新至v2.29)

前端學PHP之日期與時間

Quartz之Job與JobDetail淺析

linux基本命令之chattr與lsattr

【Android開發】之Fragment與Acitvity通信

python學習筆記之列表與元組

IOS開發之——objectForKey與valueForKey在NSDictionary中的差異

sklearn.preprocessing之StandardScaler與Normalizer

一、標準化（Z-Score），或者去除均值和方差縮放

二、將屬性縮放到一個指定範圍

三、正則化（Normalization）

相關推薦