1. 程式人生 > >【資料處理】歸一化和標準化的區別

【資料處理】歸一化和標準化的區別

參考

歸一化

常用的方法是通過對原始資料進行線性變換把資料對映到[0,1]之間,變換函式為:

x=xxminxmaxxmin
不同變數往往量綱不同,歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。在不涉及距離度量、協方差計算、資料不符合正太分佈的時候,可以使用歸一化方法。比如影象處理中,將RGB影象轉換為灰度影象後將其值限定在[0 255]的範圍。

標準化

常用的方法是z-score標準化,經過處理後的資料均值為0,標準差為1,公式是:

x=xuσ
該種歸一化方式要求原始資料的分佈可以近似為高斯分佈,均值為0,標準差為1。在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,Z-score standardization表現更好。