標準化/歸一化

阿新 • • 發佈：2021-03-09

資料標準化是一個常用的資料預處理操作，目的是處理不同規模和量綱的資料，使其縮放到相同的資料區間和範圍，以減少規模、特徵、分佈差異等對模型的影響。

標準化（Z-Score）

Z-Score標準化是基於原始資料的均值和標準差進行的標準化，假設原轉換的資料為x，新資料為x′，那麼x'=(x-mean)/std，其中mean和std為x所在列的均值和標準差。
這種方法適合大多數型別的資料，也是很多工具的預設標準化方法。標準化之後的資料是以0為均值，方差為1的正態分佈。但是Z-Score方法是一種中心化方法，會改變原有資料的分佈結構，不適合對稀疏資料做處理。

歸一化（Max-Min）

Max-Min標準化方法是對原始資料進行線性變換，假設原轉換的資料為x，新資料為x′，那麼x'=(x-min)/(max-min)，其中min和max為x所在列的最小值和最大值。
這種標準化方法的應用非常廣泛，得到的資料會完全落入[0，1]區間內（Z-Score則沒有類似區間）。這種方法能使資料歸一化而落到一定的區間內，同時還能較好地保持原有資料結構。

讀取資料

import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
data = np.loadtxt('data6.txt', delimiter='\t')  # 讀取資料
data
#列印結果
array([[ 8.9 , 10.4 ],
       [ 7.76,  4.68],
       [ 7.54,  3.84],
       ...,
       [ 2.26,  5.14],
       [ 2.17,  3.54],
       [ 1.95,  3.81]])

Z-Score標準化

# Z-Score標準化
zscore_scaler = preprocessing.StandardScaler()  # 建立StandardScaler物件
data_scale_1 = zscore_scaler.fit_transform(data)  # StandardScaler標準化處理

data_scale_1 
#列印結果
array([[ 3.95979742,  6.25657217],
       [ 2.80473492,  0.49961714],
       [ 2.58182812, -0.34580982],
       ...,
       [-2.76793503,  0.96258905],
       [-2.85912418, -0.64774802],
       [-3.08203098, -0.37600364]])

歸一化Max-Min

minmax_scaler = preprocessing.MinMaxScaler()  # 建立MinMaxScaler模型物件
data_scale_2 = minmax_scaler.fit_transform(data)  # MinMaxScaler標準化處理

data_scale_2
#列印結果
array([[1.        , 1.        ],
       [0.83597122, 0.37758433],
       [0.80431655, 0.28618063],
       ...,
       [0.04460432, 0.42763874],
       [0.03165468, 0.25353645],
       [0.        , 0.28291621]])

展示多網格結果

# 展示多網格結果
data_list = [data, data_scale_1, data_scale_2]  # 建立資料集列表
color_list = ['black', 'green', 'blue']  # 建立顏色列表
merker_list = ['o', ',', '+']  # 建立樣式列表
title_list = ['source data', 'zscore_scaler', 'minmax_scaler']  # 建立標題列表
plt.figure(figsize=(13, 3)) #指定繪圖區域的大小
for i, data_single in enumerate(data_list):  # 迴圈得到索引和每個數值
    plt.subplot(1, 3, i + 1)  # 確定子網格,一行三列，i是從0開始
    plt.scatter(data_single[:,:-1], data_single[:, -1], s=10, marker=merker_list[i],c=color_list[i])  # 自網格展示散點圖  
                # d=a[:-1]  #從位置0到位置-1之前的數;s是點的大小,merker_list畫圖樣式列表，c顏色列表
    plt.title(title_list[i])  # 設定自網格標題
plt.suptitle("raw data and standardized data")  # 設定總標題
#Text(0.5, 0.98, 'raw data and standardized data')

標準化/歸一化

AI筆記 - 資料歸一化和標準化

資料歸一化和標準化資料標準化/歸一化normalization 轉自：資料標準化/歸一化normalization

深入探討：為什麼要做特徵歸一化/標準化？

點選上方“3D視覺工坊”，選擇“星標” 乾貨第一時間送達作者丨shine-lee 來源丨https://blog.csdn.net/blogshinelee/article/details/102875044

資料變換-歸一化與標準化

公號：碼農充電站pro 主頁：https://codeshellme.github.io 一般在機器學習的模型訓練之前，有一個比較重要的步驟是資料變換。

P9 歸一化以及標準化對比

http://bilibili.com/video/BV184411Q7Ng?p=9 Python程式舉例： \"\"\" 對資料進行歸一化處理 \"\"\"

歸一化Normalization、標準化Standardization和正則化Regularization

一、歸一化Normalization和標準化Standardization 標準化和歸一化都是將原始資料縮放到一定範圍，都屬於特徵縮放的方法。

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

歸一化，標準化和正則化，二值化概念和含義資料歸一化：將資料集中某一列數值特徵的值縮放到0-1區間內

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

pytorch 歸一化與反歸一化例項

ToTensor中就有轉到0-1之間了。 # -*- coding:utf-8 -*- import time import torch from torchvision import transforms

pytorch方法測試詳解——歸一化(BatchNorm2d)

測試程式碼： import torch import torch.nn as nn m = nn.BatchNorm2d(2,affine=True) #權重w和偏重將被使用

如何基於python實現歸一化處理

這篇文章主要介紹瞭如何基於python實現歸一化處理,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

TensorFlow實現批量歸一化操作的示例

批量歸一化在對神經網路的優化方法中，有一種使用十分廣泛的方法——批量歸一化，使得神經網路的識別準確度得到了極大的提升。

【深度學習】歸一化方法

為什麼要做歸一化？神經網路學習的本質就是學習資料的分佈。如果沒有對資料進行歸一化處理，那麼每一批次訓練的資料的分佈就有可能不一樣。從大的方面來講，神經網路需要在多個分佈中找到一個合適的平衡點；從小的方

批量歸一化（BN, Batch Normalization）

　　現在的神經網路通常都特別深，在輸出層向輸入層傳播導數的過程中，梯度很容易被啟用函式或是權重以指數級的規模縮小或放大，從而產生“梯度消失”或“梯度爆炸”的現象，造成訓練速度下降和

特徵歸一化、特徵對映、正則化

特徵歸一化，特徵對映，正則化特徵歸一化(Feature Normalize/Feature Scaling) 應用簡介

圖解BN,LN,IN,SN資料歸一化

目錄簡介計算流程為什麼要對資料歸一化Batch NormalizationLayer NormalizaitonInstance NormalizationGroup NormalizationSwitchable Normalization

Accelerating Deep Network Training by Reducing Internal Covariate Shift-BN歸一化解讀

作者：18屆CYL 日期：2020-9-1 期刊：arxiv 標籤： BN歸一化論文：《Batch Nomalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift》

“讓Keras更酷一些！”：隨意的輸出和靈活的歸一化

“讓Keras更酷一些！”：隨意的輸出和靈活的歸一化 By蘇劍林|2019-01-27 下面是利用這個思路實現的譜歸一化（Spectral Normalization）：

10.資料歸一化

import numpy as np import matplotlib.pyplot as plt 最值歸一化 x = np.random.randint(0,100,size=100)

資料集預處理之歸一化

為什麼要資料歸一化Feature Scaling 由於原始資料值的範圍差異很大，因此在某些機器學習演算法中，如果沒有歸一化，目標函式將無法正常工作。例如，許多分類器通過歐幾里得距離來計算兩點之間的距離。如果其中一個

標準化/歸一化

Z-Score標準化

歸一化Max-Min

展示多網格結果

相關推薦