1. 程式人生 > >第五篇:數據預處理(二) - 異常值處理

第五篇:數據預處理(二) - 異常值處理

ges 方向 分享 site 方式 得到 ros 聚類 測試

前言

數據中如果有某個值偏離該列其他值比較離譜,那麽就有可能是一個異常的值。在數據預處理中,自然需要把這個異常值檢測出來,然後剔除掉,或者光滑掉,或者其他各種方法進行處理。

需要註意的是,本文僅介紹最為基礎的單維度異常檢測及處理方法,而在實際應用中更多用到的是多維度異常檢測,這部分得到時結合具體項目學習。

異常值處理

1. 安裝並導入包outliers並加載。

2. 生成一組用於測試的數據集(本例采用隨機生成):

技術分享

技術分享

outlier計算偏離最遠位置的點,它有兩個參數:

- opposite:它值為TRUE或者FALSE時分別表示的是兩個距離方向的極值點。


- logical:它的值同樣為TRUE或者FALSE,分別表示用布爾值表示結果還是具體距離值表示。

4. 處理:

技術分享

以上代碼以每4個元素為單位進行均值光滑。

小結

實際項目中使用的更多是多維的,更高級的距離檢測機制。比如異常點的檢測還可以采用聚類的方法,落在簇之外的點就是異常點。

而且除了光滑,還有很多種異常值方式處理。一般來說和缺失值處理的方法相似,這裏就不詳細論述了。

第五篇:數據預處理(二) - 異常值處理