1. 程式人生 > >如何處理機器學習中的異常值

如何處理機器學習中的異常值

在機器學習中進行資料處理往往會遇到極端異常值,是否刪除極端異常值往往會影響到最終模型的準確性。找到異常值以後,判斷是否需要移除是根據我們的目標而定。

異常值的幾種情況

  • 如果我們只是要找到人為錯誤導致的點,大可直接移除;
  • 如果移除異常值並不會改變結果,僅僅會改變假設(assumptions),那麼也可以選擇移除異常值,但是應該記錄下來。

不會改變結果的異常值

無論是否存在異常值都不會改變回歸線。

  • 如果異常值會影響結果和假設,那麼簡單地刪除異常值並不合理。可以嘗試著對比刪除前和刪除後得到的結果,並記錄下刪除/保留異常值的原因。

異常值會改變回歸線。

  • 如果異常值建立了重要的關聯性,則應該放棄異常值,並且不應
    從分析中提到該異常值。

X和Y之間的關係是由異常值建立的,如果沒有該異常值,X和Y之間沒有關係,所以迴歸係數並未真正描述X和Y之間的聯絡。

如何處理應該保留下來的異常值

  • 嘗試通過平方根、對數變換等方式轉換資料,使得資料之間的差別縮小。
  • 嘗試不同的模型,例如第三張圖中的資料可能用非線性模型能夠更好地擬合。