關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

阿新 • • 發佈：2019-01-03

一、標準化（Z-Score），或者去除均值和方差縮放

公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

實現時，有兩種不同的方式：

使用sklearn.preprocessing.scale()函式，可以直接將給定資料進行標準化。

>>> from sklearn import preprocessing

>>> import numpy as np

>>> X = np.array([[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

>>> X_scaled = preprocessing.scale(X)

>>> X_scaled

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#處理後資料的均值和方差

>>> X_scaled.mean(axis=0)

array([ 0., 0., 0.])

>>> X_scaled.std(axis=0)

array([ 1., 1., 1.])

使用sklearn.preprocessing.StandardScaler類，使用該類的好處在於可以儲存訓練集中的引數（均值、方差）直接使用其物件轉換測試集資料。

>>> scaler = preprocessing.StandardScaler().fit(X)

>>> scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

>>> scaler.mean_

array([ 1. ..., 0. ..., 0.33...])

>>> scaler.std_

array([ 0.81..., 0.81..., 1.24...])

>>> scaler.transform(X)

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#可以直接使用訓練集對測試集資料進行轉換

>>> scaler.transform([[-1., 1., 0.]])

array([[-2.44..., 1.22..., -0.26...]])

二、將屬性縮放到一個指定範圍

除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類實現。

使用這種方法的目的包括：

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

>>> X_train = np.array([[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

...

>>> min_max_scaler = preprocessing.MinMaxScaler()

>>> X_train_minmax = min_max_scaler.fit_transform(X_train)

>>> X_train_minmax

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

>>> #將相同的縮放應用到測試集資料中

>>> X_test = np.array([[ -3., -1., 4.]])

>>> X_test_minmax = min_max_scaler.transform(X_test)

>>> X_test_minmax

array([[-1.5 , 0. , 1.66666667]])

>>> #縮放因子等屬性

>>> min_max_scaler.scale_

array([ 0.5 , 0.5 , 0.33...])

>>> min_max_scaler.min_

array([ 0. , 0.5 , 0.33...])

當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std/(max-min)+min

三、正則化（Normalization）

正則化的過程是將每個樣本縮放到單位範數（每個樣本的範數為1），如果後面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

Normalization主要思想是對每個樣本計算其p-範數，然後對該樣本中每個元素除以該範數，這樣處理的結果是使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。

p-範數的計算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如，對於兩個TF-IDF向量的l2-norm進行點積，就可以得到這兩個向量的餘弦相似性。

1、可以使用preprocessing.normalize()函式對指定資料進行轉換：

>>> X = [[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]]

>>> X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換：

>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing

>>> normalizer

Normalizer(copy=True, norm='l2')

>>>

>>> normalizer.transform(X)

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

>>> normalizer.transform([[-1., 1., 0.]])

array([[-0.70..., 0.70..., 0. ...]])

補充：

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式：

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方

使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

本文主要是對照scikit-learn的preprocessing章節結合程式碼簡單的回顧下預處理技術的幾種方法，主要包括標準化、資料最大最小縮放處理、正則化、特徵二值化和資料缺失值處理。內容比較簡單，僅供參考！首先來回顧一下下面要用到的基本知識。均值公式：

python之sklearn常見資料預處理歸一化方式解析

標準歸一化歸一化到均值為0，方差為1 sklearn.preprocessing.scale函式：Standardize a dataset along any axis 先貼出主要的原始碼，乍一看，很亂，其實細看之下，就是多了一些判斷稀疏矩陣之類

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

在我們平時進行資料資料探勘建模時，一般首先得對資料進行預處理，其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

資料預處理——歸一化標準化

資料的標準化（normalization）是將資料按比例縮放，使之落入一個小的特定區間。去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上 import nu

資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實

Python資料預處理—歸一化，標準化，正則化

>>> X_train = np.array([[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]]) ... >>> min_max_scaler = preprocessing.MinMaxScaler() >

關於使用Sklearn進行資料預處理 —— 缺失值（Missing Value）處理

關於缺失值（missing value）的處理在sklearn的preprocessing包中包含了對資料集中缺失值的處理，主要是應用Imputer類進行處理。首先需要說明的是，numpy的陣列中可以使用np.nan/np.NaN（Not A Number）來代替

歸一化----標準化---正則化----Python的實現

1、(0,1)標準化： from sklearn.preprocessing import MinMaxScaler 這是最簡單也是最容易想到的方法，通過遍歷feature vector裡的每一個列資料，將Max和Min的記錄下來，並通過Max-Min作為基數（即Min=

資料預處理——標準化、歸一化、正則化

三者都是對資料進行預處理的方式，目的都是為了讓資料便於計算或者獲得更加泛化的結果，但是不改變問題的本質。標準化（Standardization）歸一化（normalization）正則化（regularization）歸一化我們在對資料進行分析的時候，往往會遇到單個數據的各個維度量綱不同的

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

sklearn preprocessing 資料預處理 OneHotEncoder

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python商品資料預處理與K-Means聚類視覺化分析

資料提取在我之前的文章Scrapy自動爬取商品資料爬蟲裡實現了爬蟲爬取商品網站搜尋關鍵詞為python的書籍商品，爬取到了60多頁網頁的1260本python書籍商品的書名，價格，評論數和商品連結，並將所有商品資料儲存到本地的.json檔案中。資料儲存格式如下：

利用python Pandas進行資料預處理

目錄： 1.安裝pandas 2.pandas的引入 3.資料清洗 ①處理缺

深度學習-----資料預處理是必要的，一些經驗化的預處理措施

資料歸一化更多詳細資訊，參照網址：非常值得一看： http://blog.csdn.net/qq_26898461/article/details/50463052 http://blog.csdn.net/bea_tree/article/details/5

用python進行資料預處理，過濾特殊符號，英文和數字。（適用於中文分詞）

要進行中文分詞，必須要求資料格式全部都是中文，需求過濾掉特殊符號、標點、英文、數字等。當然了使用者可以根據自己的要求過濾自定義字元。實驗環境：python、mysql 實驗目的：從資料庫讀取資料，

利用Python Pandas進行資料預處理-資料清洗

資料缺失、檢測和過濾異常值、移除重複資料資料缺失資料缺失在大部分資料分析應用中都很常見，Pandas使用浮點值NaN表示浮點和非浮點陣列中的缺失資料，他只是一個便於被檢測出來的資料而已。 from pandas import Series,Da

weka進行資料預處理

裝入資料開啟weka，點選進入explorer介面，在preprocesstag下，點選open file 按鈕裝入ARFF資料檔案。 Weka同時也具有讀入“.csv”格式檔案的能力，在做資料探勘中，很多時候資料是儲存在excel的電子表格中，開啟Excel檔案，從Fi

sklearn —— 標準化、歸一化、正則化

一、標準化（Z-Score）公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式： 1

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放

二、將屬性縮放到一個指定範圍

三、正則化（Normalization）

相關推薦