1. 程式人生 > >常用的特征處理方法

常用的特征處理方法

RM ans 常用 In 魯棒性 註意 很大的 基於 SQ

對於機器學習模型,我們把他們分成基於樹的模型和非基於樹的模型,因為在處理他們的特征需要不同的方法。

1.數值型特征

如果一個特征的值特別大的話,那麽會使得其在非樹模型上占有很大的比例,所以我們通常對其做歸一化處理。
Outliers:不管是對特征還是標簽,異常數據對模型的魯棒性都會帶來較大的打擊,所以常用取數據的99%來去除異常數據。
rank:在處理outlier的時候可以把數值型轉化成rank排序特征,這樣異常值和普通值之間的差距就不會那麽大,在排序時要註意訓練集與測試集之間的rank連接(對此,可以先把train和test連在一起再做rank排序)。
log transform和sqrt:這兩種方法都可以把太大的值轉化到均值附近,降低異常值帶來的影響。

常用的特征處理方法