Python3實現常用資料標準化方法

阿新 • • 發佈：2019-01-20

資料標準化是機器學習、資料探勘中常用的一種方法。包括我自己在做深度學習方面的研究時，資料標準化是最基本的一個步驟。資料標準化主要是應對特徵向量中資料很分散的情況，防止小資料被大資料（絕對值）吞併的情況。另外，資料標準化也有加速訓練，防止梯度爆炸的作用。下面是從李巨集毅教授視訊中截下來的兩張圖。

左圖表示未經過資料標準化處理的loss更新函式，右圖表示經過資料標準化後的loss更新圖。可見經過標準化後的資料更容易迭代到最優點，而且收斂更快。

一、[0, 1] 標準化

[0, 1] 標準化是最基本的一種資料標準化方法，指的是將資料壓縮到0～1之間。標準化公式如下，
$x = \frac{x - m i n (x)}{m a x (x) - m}$

ix(x) x = \dfrac{x - min(x)}{max(x) - mix(x)}

x = m a x ( x ) - m i x ( x ) x - m i n ( x )

程式碼實現，

def MaxMinNormalization(x, min, max):
    """[0,1] normaliaztion"""
    x = (x - min) / (max - min)
    return x

或者，

def MaxMinNormalization(x):
    """[0,1] normaliaztion"""
    x = (x - np.min(x)) / (np.max(x) - np.min(x))
    return 
 x

二、Z-score標準化

Z-score標準化是基於資料均值和方差的標準化化方法。標準化後的資料是均值為0，方差為1的正態分佈。這種方法要求原始資料的分佈可以近似為高斯分佈，否則效果會很差。標準化公式如下，
$x = \dfrac{x - mean}{std}$
下面，我們看看為什麼經過這種標準化方法處理後的資料為是均值為0，方差為1，

程式碼實現，

def ZscoreNormalization(x, mean_, std_):
    """Z-score normaliaztion"""
    x = (x - mean_) / std_
    return 
 x

或者，

def ZscoreNormalization(x):
    """Z-score normaliaztion"""
    x = (x - np.mean(x)) / np.std(x)
    return x

Python3實現常用資料標準化方法

一、[0, 1] 標準化

二、Z-score標準化

【參考文獻】

Python3實現常用資料標準化方法

三種常用資料標準化方法

【轉載】常用資料增強方法總結及實現

python3中常用的列表方法(method)

python pandas常用資料處理方法

好書丨最想推薦給程式設計師們看的基於Python3實現的資料科學書

這是我最想推薦給程式設計師們看的基於Python3實現的資料科學書

Python3常用資料結構及方法介紹（三）——字串

Python3常用資料結構及方法介紹（二）——元組

Python3常用資料結構及方法介紹（一）——列表

Hive實現資料抽樣的常用三種方法

jQuery實現的ajax操作（最常用的json方法）

常用標準化方法

python3 常用資料型別轉換語法

JS實現陣列去重方法總結(三種常用方法)

C# ListBox實現顯示插入最新的資料的方法

李巨集毅機器學習 P12 HW2 Winner or Loser 筆記（不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型）

django中常用的資料查詢方法

資料特徵歸一化/標準化方法

Java實現陣列去除重複資料的方法詳解

Python3實現常用資料標準化方法

一、[0, 1] 標準化

二、Z-score標準化

【參考文獻】

相關推薦