1. 程式人生 > >特徵歸一化

特徵歸一化

在某些問題中,資料歸一化是必不可少的。

線性歸一化

公式:

$$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$$

該方法實現對原始資料的等比例縮放,X為原始資料,Xmax、Xmin分別為原始資料集的最大值和最小值。

此歸一化方法的優缺點為

優點: 如果方差較小,可以使用此方法將特徵差異放大   缺點: 容易受到資料的影響,如噪音,或者最大值最小值太極端的情況。

零均值歸一化

$$X_{norm} = \frac{X - \mu}{\sigma}$$

其中X是原資料,其中$$\mu其中\mu是原資料的均值,\sigma是原資料的方差。

此歸一化方法的優缺點為:

優點: 將所有資料都歸一到均值為0,方差為1的正態分佈<br> 缺點: 對於不滿足高斯分佈的資料歸一化後的結果較差