規範化、標準化、歸一化、正則化

阿新 • • 發佈：2019-02-06

規範化：

針對資料庫

規範化把關係滿足的規範要求分為幾級，滿足要求最低的是第一正規化（1NF），再來是第二正規化、第三正規化、BC正規化和4NF、5NF等等，範數的等級越高，滿足的約束集條件越嚴格。

針對資料

資料的規範化包括歸一化標準化正則化，是一個統稱（也有人把標準化作為統稱）。

資料規範化是資料探勘中的資料變換的一種方式，資料變換將資料變換或統一成適合於資料探勘的形式，將被挖掘物件的屬性資料按比例縮放，使其落入一個小的特定區間內，如[-1, 1]或[0, 1]

對屬性值進行規範化常用於涉及神經網路和距離度量的分類演算法和聚類演算法當中。比如使用神經網路後向傳播演算法進行分類挖掘時，對訓練元組中度量每個屬性的輸入值進行規範化有利於加快學習階段的速度

。對於基於距離度量相異度的方法，資料歸一化能夠讓所有的屬性具有相同的權值。

資料規範化的常用方法有三種：最小最大值規範化，z-score標準化和按小數定標規範化

標準化（standardization）：

資料標準化是將資料按比例縮放，使其落入到一個小的區間內，標準化後的資料可正可負，但是一般絕對值不會太大，一般是z-score標準化方法：減去期望後除以標準差。

$x^{^{*}}=\frac{ x-\mu}{\sigma }$

特點：

對不同特徵維度的伸縮變換的目的是使其不同度量之間的特徵具有可比性，同時不改變原始資料的分佈。

好處：

不改變原始資料的分佈，保持各個特徵維度對目標函式的影響權重
對目標函式的影響體現在幾何分佈上
在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景

歸一化（normalization）：

把數值放縮到0到1的小區間中（歸到數字訊號處理範疇之內），一般方法是最小最大規範的方法：min-max normalization

$x^{^{*}}=\frac{x-min}{max-min}$

上面min-max normalization是線性歸一化，還有非線性歸一化，通過一些數學函式，將原始值進行對映。該方法包括log、指數、反正切等。需要根據資料分佈的情況，決定非線性函式的曲線。

log函式：x = lg(x)/lg(max)；反正切函式：x = atan(x)*2/pi

應用：

1.無量綱化
例如房子數量和收入，從業務層知道這兩者的重要性一樣，所以把它們全部歸一化，這是從業務層面上作的處理。

2.避免數值問題
不同的資料在不同列資料的數量級相差過大的話，計算起來大數的變化會掩蓋掉小數的變化。

3.一些模型求解的需要
例如梯度下降法，如果不歸一化，當學習率較大時，求解過程會呈之字形下降。學習率較小，則會產生直角形路線，不管怎麼樣，都不會是好路線（路線解釋看西面歸一化和標準化的對比）。解釋神經網路梯度下降的文章。

4.時間序列
進行log分析時，會將原本絕對化的時間序列歸一化到某個基準時刻，形成相對時間序列，方便排查。

5.收斂速度
加快求解過程中引數的收斂速度。

特點：

對不同特徵維度進行伸縮變換
改變原始資料的分佈，使得各個特徵維度對目標函式的影響權重歸於一致（使得扁平分佈的資料伸縮變換成類圓形）
對目標函式的影響體現在數值上
把有量綱表示式變為無量綱表示式

歸一化可以消除量綱對最終結果的影響，使不同變數具有可比性。比如兩個人體重差10KG，身高差0.02M，在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋，歸一化之後就不會有這樣的問題。

好處：

提高迭代求解的收斂速度
提高迭代求解的精度

缺點：

最大值與最小值非常容易受異常點影響
魯棒性較差，只適合傳統精確小資料場景

標準化vs歸一化

1、在分類、聚類演算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候，標準化(Z-score standardization)表現更好。

2、在不涉及距離度量、協方差計算、資料不符合正太分佈的時候，可以使用歸一化方法。比如影象處理中，將RGB影象轉換為灰度影象後將其值限定在[0 255]的範圍。

正則化（regularization）：

在求解最優化問題中，調節擬合程度的引數一般稱為正則項，越大表明欠擬合，越小表明過擬合

為了解決過擬合問題，通常有兩種方法，第一是減小樣本的特徵（即維度），第二是正則化（又稱為懲罰penalty）

正則化的一般形式是在整個平均損失函式的最後增加一個正則項（L2範數正則化，也有其他形式的正則化，作用不同）

正則項越大表明懲罰力度越大，等於0表示不做懲罰。

正則項越小，懲罰力度越小，極端為正則項為0，則會造成過擬合問題；正則化越大，懲罰力度越大，則容易出現欠擬合問題。

機器學習中之規範化，中心化，標準化，歸一化，正則化，正規化

一、歸一化，標準化和中心化歸一化（Normalization）、標準化（Standardization）和中心化/零均值化（Zero-centered）標準化資料的標準化（normalization）是將資料按比例縮放（scale），使之落入一個小的特定區間。在某些比較和評價

解決過擬合的方式（一）：正則化

一、過擬合監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型

TensorFlow北大公開課學習筆記4.4-神經網路優化----正則化（正則化損失函式）

今天學習了正則化，主要內容是：通過程式碼比較正則化與不正則化的區別。什麼叫過擬合？神經網路模型在訓練資料集上的準確率較高，在新的資料進行預測或分類時準確率較低，說明模型的泛化能力差什麼叫正則化：？在損失函式中給每個引數

正則化和正則化的思想

首先了解一下正則性（regularity），正則性衡量了函式光滑的程度，正則性越高，函式越光滑。（光滑衡量了函式的可導性，如果一個函式是光滑函式，則該函式無窮可導，即任意n階可導）。正則化是為了解決過擬合問題。在Andrew Ng的機器學習視訊中有提到（詳見ht

規範化、標準化、歸一化、正則化

規範化：針對資料庫規範化把關係滿足的規範要求分為幾級，滿足要求最低的是第一正規化（1NF），再來是第二正規化、第三正規化、BC正規化和4NF、5NF等等，範數的等級越高，滿足的約束集條件越嚴格。針對資料資料的規範化包括歸一化標準化正則化，是一個統稱（也有人把標準化

資料預處理——標準化、歸一化、正則化

三者都是對資料進行預處理的方式，目的都是為了讓資料便於計算或者獲得更加泛化的結果，但是不改變問題的本質。標準化（Standardization）歸一化（normalization）正則化（regularization）歸一化我們在對資料進行分析的時候，往往會遇到單個數據的各個維度量綱不同的

R語言標準化（歸一化）之scale（）函式、sweep（）函式

#資料集 x<-cbind(c(1,2,3,4),c(5,5,10,20),c(3,6,9,12)) #自己寫標準化 x_min_temp<-apply(x,2,min) x_min<-matrix(rep(x_min_temp,4),byrow=TR

歸一化、標準化和正則化的關係

總的來說，歸一化是為了消除不同資料之間的量綱，方便資料比較和共同處理，比如在神經網路中，歸一化可以加快訓練網路的收斂性；標準化是為了方便資料的下一步處理，而進行的資料縮放等變換，並不是為了方便與其他資料一同處理或比較，比如資料經過零-均值標準化後，更利於使用標準正態分佈的性質，進行處理；正則化而是利用先驗知識

sklearn —— 標準化、歸一化、正則化

一、標準化（Z-Score）公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式： 1

批歸一化（Batch Normalization）、L1正則化和L2正則化

from: https://www.cnblogs.com/skyfsm/p/8453498.html https://www.cnblogs.com/skyfsm/p/8456968.html BN是由Google於2015年提出，這是一個深度神經網路訓練的技巧，它不僅可以加快了

sklearn中的train_test_split（資料分割）、preprocessing（歸一化）、cross_val_score（交叉驗證）

1、train_test_split（資料分割）： from sklearn.model_selection import train_test_split X=np.random.randint(0,100,(10,4)) y=np.random.randint(0,3,10) y.

過擬合、正則化、泛化、歸一化

1、什麼是過擬合過擬合現象：通常我們在分類任務過程中都會遇到過擬合這種現象，具體表現為，當我們增加訓練集的資料時，測試集的分類效果反而降低，這種現象稱為過擬合，或者叫過配。過擬合的本質：是由於監督學習問

改善深層神經網絡：超參數調試、正則化及優化

正則 ria 左右訓練訓練集第一周 1.3 實驗必須第一周深度學習的實用層面 1.1 訓練、驗證、測試集應用機器學習是個高度叠代的過程：想法--->編碼--->實驗（1）神經網絡的層數（2）隱含層神經元個數（3）學習率（4）激勵函數

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

erp 搜索給定 via 深度 mode any .com sim 1 調試處理( tuning process ) 如下圖所示，ng認為學習速率α是需要調試的最重要的超參數。其次重要的是momentum算法的β參數（一般設為0.9），隱藏單元數和mini-batch的

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

交叉來講相對同時 test 如果開始遞增相互算法正則化可以有效地防止過擬合, 但正則化跟算法的偏差和方差又有什麽關系呢？下面主要討論一下方差和偏差兩者之間是如何相互影響的、以及和算法的正則化之間的相互關系假如我們要對高階的多項式進行擬合，為了防止過擬合現象

第九節，改善深層神經網絡：超參數調試、正則化以優化(下)

nbsp dao 區別行列式增加 ngs out 來看 row 一批標準化 (batch normalization) 部分內容來自： Batch Normalization 批標準化深度學習Deep Learning(05):Batc

容量、欠擬合、過擬合和正則化

適合期望 ner 一定的數據集需要影響會計所有 1、訓練誤差和泛化誤差機器學習的主要挑戰是我們的模型要在未觀測數據上表現良好，而不僅僅是在訓練數據上表現良好。在未觀測數據上表現良好稱為泛化（generalization）。通常情況下，我們在訓練數據上訓練模型

標準化，歸一化和的概念與適用範圍整理

網上講得比較亂有些部落格把歸一化和標準化認為一致，主要是覺得normalization這個詞語翻譯成標準化和歸一化都沒啥問題 Min-Max scaling（歸一化），也可以使用normalization，但是谷歌上不推薦，公式是：網上通俗的說法是：用來消除量鋼的影響。這個說法

改善深層神經網路：超引數除錯、正則化以及優化_課程筆記_第一、二、三週

所插入圖片仍然來源於吳恩達老師相關視訊課件。仍然記錄一下一些讓自己思考和關注的地方。第一週訓練集與正則化這周的主要內容為如何配置訓練集、驗證集和測試集；如何處理偏差與方差；降低方差的方法（增加資料量、正則化：L2、dropout等）；提升訓練速度的方法：歸一化訓練集；如何合理的初始化權

資料的標準化，歸一化方法總結

資料的標準化　　資料的標準化（normalization）是將資料按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。　　其中最典型的就是資料的歸一化處理，即將資料統一對映

規範化、標準化、歸一化、正則化

規範化：

標準化（standardization）：

歸一化（normalization）：

標準化vs歸一化

正則化（regularization）：

相關推薦