特徵歸一化方法之選取
阿新 • • 發佈:2018-12-18
特徵歸一化主要有兩種方法:
1、線性函式歸一化(Min-Max scaling)
線性函式將原始資料線性化的方法轉換到[0 1]的範圍,歸一化公式如下:
該方法實現對原始資料的等比例縮放,其中Xnorm為歸一化後的資料,X為原始資料,Xmax、Xmin分別為原始資料集的最大值和最小值。2、0均值標準化(Z-score standardization)
0均值歸一化方法將原始資料集歸一化為均值為0、方差1的資料集,歸一化公式如下: 其中,μ、σ分別為原始資料集的均值和方法。該種歸一化方式要求原始資料的分佈可以近似為高斯分佈,否則歸一化的效果會變得很糟糕。以上為兩種比較普通但是常用的歸一化技術,那這兩種歸一化的應用場景是怎麼樣的呢?什麼時候第一種方法比較好、什麼時候第二種方法比較好呢?下面做一個簡要的分析概括:
1、在分類、聚類
2、在不涉及距離度量、協方差計算、資料不符合正太分佈的時候,可以使用第一種方法或其他歸一化方法。比如影象處理中,將RGB影象轉換為灰度影象後將其值限定在[0 255]的範圍