第五篇:數據預處理(二) - 異常值處理
阿新 • • 發佈:2017-05-20
ges 方向 分享 site 方式 得到 ros 聚類 測試
- logical:它的值同樣為TRUE或者FALSE,分別表示用布爾值表示結果還是具體距離值表示。
前言
數據中如果有某個值偏離該列其他值比較離譜,那麽就有可能是一個異常的值。在數據預處理中,自然需要把這個異常值檢測出來,然後剔除掉,或者光滑掉,或者其他各種方法進行處理。
需要註意的是,本文僅介紹最為基礎的單維度異常檢測及處理方法,而在實際應用中更多用到的是多維度異常檢測,這部分得到時結合具體項目學習。
異常值處理
1. 安裝並導入包outliers並加載。
2. 生成一組用於測試的數據集(本例采用隨機生成):
outlier計算偏離最遠位置的點,它有兩個參數:
- opposite:它值為TRUE或者FALSE時分別表示的是兩個距離方向的極值點。
- logical:它的值同樣為TRUE或者FALSE,分別表示用布爾值表示結果還是具體距離值表示。
4. 處理:
以上代碼以每4個元素為單位進行均值光滑。
小結
實際項目中使用的更多是多維的,更高級的距離檢測機制。比如異常點的檢測還可以采用聚類的方法,落在簇之外的點就是異常點。
而且除了光滑,還有很多種異常值方式處理。一般來說和缺失值處理的方法相似,這裏就不詳細論述了。
第五篇:數據預處理(二) - 異常值處理