為什麼要對資料進行歸一化？

阿新 • • 發佈：2018-12-20

為什麼要歸一化

1、提高梯度下降法求解最優解的速度 如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大，X1區間是[0,2000]，X2區間是[1,5]，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走），從而導致需要迭代很多次才能收斂；

而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的收斂。

因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

在這裡插入圖片描述

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

歸一化的型別

1）最大最小歸一化。

$x' = \frac{x - \text{min}(x)}{\text{max}(x)-\text{min}(x)}$

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷，如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。而且如果有新加入的資料，max和min就會變化。實際使用中可以用經驗常量值來替代max和min。

2）標準差標準化

經過處理的資料符合標準正態分佈，即均值為0，標準差為1，其轉化函式為： $x$

∗=x−μδx^* = \frac{x-\mu}{\delta}

x^{*} = δ x - μ

3）非線性歸一化

經常用在資料分化比較大的場景，有些數值很大，有些很小。通過一些數學函式，將原始值進行對映。該方法包括 log、指數，正切等。需要根據資料分佈的情況，決定非線性函式的曲線，比如log(V, 2)還是log(V, 10)等。

為什麼要對資料進行歸一化？

為什麼要歸一化

歸一化的型別

為什麼要對資料進行歸一化？

python對樣本進行歸一化處理

利用numpy對矩陣進行歸一化處理的方法

機器學習中資料的歸一化處理

資料特徵歸一化/標準化方法

【sklearn例項】5--資料標準化/歸一化

給一個向量進行歸一化

資料的歸一化（Normalization）、標準化（Standardization）

資料變換-歸一化與標準化

機器學習資料處理時label錯位對未來資料做預測機器學習經典模型簡單使用及歸一化（標準化）影響

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

為什麼要資料歸一化和歸一化方法為什麼要資料歸一化和歸一化方法

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

利用keras中image.ImageDataGenerator.flow_from_directory()實現從資料夾中提取圖片和進行簡單歸一化處理

Python基礎day-18[面向對象:繼承,組合,接口歸一化]

C++ 實現matlab資料歸一化函式mapminmax

Bobo老師機器學習筆記-資料歸一化

資料歸一化（續）

為什麼要對資料進行歸一化？

為什麼要歸一化

歸一化的型別

相關推薦