sklearn —— 標準化、歸一化、正則化

阿新 • • 發佈：2019-02-16

一、標準化（Z-Score）

公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

實現時，有兩種不同的方式：

1、使用sklearn.preprocessing.scale()函式，可以直接將給定資料進行標準化

>>> from sklearn import preprocessing
>>> import numpy as np
>>> X = np.array([[ 1., -1.,  2. 
],
...               [ 2.,  0.,  0.],
...               [ 0.,  1., -1.]])
>>> X_scaled = preprocessing.scale(X)

>>> X_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])

>>>#處理後資料的均值和方差 

>>> X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])

>>> X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

2、使用sklearn.preprocessing.StandardScaler類，使用該類的好處在於可以儲存訓練集中的引數（均值、方差）直接使用其物件轉換測試集資料。

>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)

>>> scaler.mean_                                      
array([ 1. 
 ...,  0. ...,  0.33...])

>>> scaler.std_                                       
array([ 0.81...,  0.81...,  1.24...])

>>> scaler.transform(X)                               
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])


>>>#可以直接使用訓練集對測試集資料進行轉換
>>> scaler.transform([[-1.,  1., 0.]])                
array([[-2.44...,  1.22..., -0.26...]])

二、歸一化（Min-Max Normalization）

除了上述介紹的方法之外，另一種常用的方法歸一化，將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類實現。

使用這種方法的目的包括：

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> min_max_scaler = preprocessing.MinMaxScaler()
>>> X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

>>> #將相同的縮放應用到測試集資料中
>>> X_test = np.array([[ -3., -1.,  4.]])
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array([[-1.5       ,  0.        ,  1.66666667]])


>>> #縮放因子等屬性
>>> min_max_scaler.scale_                             
array([ 0.5       ,  0.5       ,  0.33...])

>>> min_max_scaler.min_                               
array([ 0.        ,  0.5       ,  0.33...])

當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std/(max-min)+min

三、正則化（Normalization）

正則化的過程是將每個樣本縮放到單位範數（每個樣本的範數為1），如果後面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

Normalization主要思想是對每個樣本計算其p-範數，然後對該樣本中每個元素除以該範數，這樣處理的結果是使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。

         p-範數的計算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如，對於兩個TF-IDF向量的l2-norm進行點積，就可以得到這兩個向量的餘弦相似性。

1、可以使用preprocessing.normalize()函式對指定資料進行轉換：

>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized                                      
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換：

>>> normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
>>> normalizer
Normalizer(copy=True, norm='l2')

>>>
>>> normalizer.transform(X)                            
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer.transform([[-1.,  1., 0.]])             
array([[-0.70...,  0.70...,  0.  ...]])

機器學習中之規範化，中心化，標準化，歸一化，正則化，正規化

一、歸一化，標準化和中心化歸一化（Normalization）、標準化（Standardization）和中心化/零均值化（Zero-centered）標準化資料的標準化（normalization）是將資料按比例縮放（scale），使之落入一個小的特定區間。在某些比較和評價

容量、欠擬合、過擬合和正則化

適合期望 ner 一定的數據集需要影響會計所有 1、訓練誤差和泛化誤差機器學習的主要挑戰是我們的模型要在未觀測數據上表現良好，而不僅僅是在訓練數據上表現良好。在未觀測數據上表現良好稱為泛化（generalization）。通常情況下，我們在訓練數據上訓練模型

【機器學習】過擬合、欠擬合與正則化

過擬合（over-fitting）在演算法對模型引數的學習過程中，如果模型過於強大，比如說，樣本空間分佈在一條直線的附近，那麼我們的模型最好是一條直線， h

機器學習概念篇：監督學習、過擬合，正則化，泛化能力等概念以及防止過擬合方法總結

上個系列【數字影象處理】還將繼續更新，最近由於用到機器學習演算法，因此將之前學習到的機器學習知識進行總結，打算接下來陸續出一個【機器學習系列】，供查閱使用！本篇便從機器學習基礎概念說起！一、解釋監督學習，非監督學習，半監督學習的區別監督學習、非監督學

[一起面試AI]NO.5過擬合、欠擬合與正則化是什麼？

Q1 過擬合與欠擬合的區別是什麼，什麼是正則化欠擬合指的是模型不能夠再訓練集上獲得足夠低的「訓練誤差」，往往由於特徵維度過少，導致擬合的函式無法滿足訓練集，導致誤差較大。過擬合指的是模型訓練誤差與測試誤差之間差距過大；具體來說就是模型在訓練集上訓練過度，導致泛化能力過差。「所有為了減少測試誤差的策略統稱

Pytorch_第八篇_深度學習 (DeepLearning) 基礎 [4]---欠擬合、過擬合與正則化

# 深度學習 (DeepLearning) 基礎 [4]---欠擬合、過擬合與正則化 --- ## Introduce 在上一篇[“深度學習 (DeepLearning) 基礎 [3]---梯度下降法”](https://www.cnblogs.com/wangqinze/p/13438609.html)中我

解決過擬合的方式（一）：正則化

一、過擬合監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型

TensorFlow北大公開課學習筆記4.4-神經網路優化----正則化（正則化損失函式）

今天學習了正則化，主要內容是：通過程式碼比較正則化與不正則化的區別。什麼叫過擬合？神經網路模型在訓練資料集上的準確率較高，在新的資料進行預測或分類時準確率較低，說明模型的泛化能力差什麼叫正則化：？在損失函式中給每個引數

正則化和正則化的思想

首先了解一下正則性（regularity），正則性衡量了函式光滑的程度，正則性越高，函式越光滑。（光滑衡量了函式的可導性，如果一個函式是光滑函式，則該函式無窮可導，即任意n階可導）。正則化是為了解決過擬合問題。在Andrew Ng的機器學習視訊中有提到（詳見ht

sklearn —— 標準化、歸一化、正則化

一、標準化（Z-Score）公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式： 1

資料預處理——標準化、歸一化、正則化

三者都是對資料進行預處理的方式，目的都是為了讓資料便於計算或者獲得更加泛化的結果，但是不改變問題的本質。標準化（Standardization）歸一化（normalization）正則化（regularization）歸一化我們在對資料進行分析的時候，往往會遇到單個數據的各個維度量綱不同的

歸一化、標準化和正則化的關係

總的來說，歸一化是為了消除不同資料之間的量綱，方便資料比較和共同處理，比如在神經網路中，歸一化可以加快訓練網路的收斂性；標準化是為了方便資料的下一步處理，而進行的資料縮放等變換，並不是為了方便與其他資料一同處理或比較，比如資料經過零-均值標準化後，更利於使用標準正態分佈的性質，進行處理；正則化而是利用先驗知識

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

在我們平時進行資料資料探勘建模時，一般首先得對資料進行預處理，其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

規範化、標準化、歸一化、正則化

規範化：針對資料庫規範化把關係滿足的規範要求分為幾級，滿足要求最低的是第一正規化（1NF），再來是第二正規化、第三正規化、BC正規化和4NF、5NF等等，範數的等級越高，滿足的約束集條件越嚴格。針對資料資料的規範化包括歸一化標準化正則化，是一個統稱（也有人把標準化

批歸一化（Batch Normalization）、L1正則化和L2正則化

from: https://www.cnblogs.com/skyfsm/p/8453498.html https://www.cnblogs.com/skyfsm/p/8456968.html BN是由Google於2015年提出，這是一個深度神經網路訓練的技巧，它不僅可以加快了

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式：

Python機器學習-資料預處理技術標準化處理、歸一化、二值化、獨熱編碼、標記編碼總結

資料預處理技術機器是看不懂絕大部分原始資料的，為了讓讓機器看懂，需要將原始資料進行預處理。引入模組和資料 import numpy as np from sklearn import preprocessing data = np.array([[3,-1.5,2,-5.4], &nbs

R語言標準化（歸一化）之scale（）函式、sweep（）函式

#資料集 x<-cbind(c(1,2,3,4),c(5,5,10,20),c(3,6,9,12)) #自己寫標準化 x_min_temp<-apply(x,2,min) x_min<-matrix(rep(x_min_temp,4),byrow=TR

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方

過擬合、正則化、泛化、歸一化

1、什麼是過擬合過擬合現象：通常我們在分類任務過程中都會遇到過擬合這種現象，具體表現為，當我們增加訓練集的資料時，測試集的分類效果反而降低，這種現象稱為過擬合，或者叫過配。過擬合的本質：是由於監督學習問

sklearn —— 標準化、歸一化、正則化

一、標準化（Z-Score）

二、歸一化（Min-Max Normalization）

三、正則化（Normalization）

相關推薦