1. 程式人生 > >資料的標準化(normalization)

資料的標準化(normalization)

在處理資料的時候,經常會涉及到標準化問題。

資料的標準化(normalization)是將資料按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

一、資料標準化分類

1. 極差的標準化

一批樣本中,每個特徵的最大值與最小值之差,稱為極差

已知兩個樣本,每個樣本有n個特徵:

極差/全距的計算:

極差標準化計算:

2. 方差標準化

計算公式:

其中,Si為樣本方差

標準化的方法很多,原始資料是否應該標準化,應採用什麼方法標準化,都要根據具體情況來定。

二、標準化有哪些方法?

2.1 規範化方法

規範化方法也叫也叫離差標準化,是對原始資料的線性變換,使結果對映到[0,1]區間。

2.2 正規化方法

  • 這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將A的原始值x使用z-score標準化到x’。
  • z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。
  • spss預設的標準化方法就是z-score標準化。
  • 用Excel進行z-score標準化的方法:在Excel中沒有現成的函式,需要自己分步計算,其實標準化的公式很簡單。

步驟如下: 1.求出各變數(指標)的算術平均值(數學期望)xi和標準差si ; 2.進行標準化處理:zij=(xij-xi)/si 其中:zij為標準化後的變數值;xij為實際變數值。 3.將逆指標前的正負號對調。 標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

2.3 歸一化方法

pic3

其中,歸一化演算法有:

  • 線性轉換:y=(x-MinValue) / (MaxValue-MinValue)
  • 對數函式轉換:y=log10(x)
  • 反餘切函式轉換:y=atan(x)*2/PI
  • 線性也與對數函式結合

整理不易,打賞請掃二維碼,感謝您的支援!