1. 程式人生 > 其它 >檢測和處理異常值的極簡指南

檢測和處理異常值的極簡指南

本文是關於檢測和處理資料集中的異常值,主要包含以下四部分內容:

  • 什麼是異常值?
  • 為什麼檢測異常值很重要?
  • 如何檢測異常值?
  • 如何處理異常值?

什麼是異常值?

異常值是與其他觀察結果顯著不同的資料點。如下圖所示,橙色資料點與一般分佈相去甚遠。我們將此點稱為異常值。

為什麼檢測異常值很重要?

在資料科學專案、統計分析、機器學習應用中檢測異常值非常重要:

  • 異常值會導致分佈偏斜。
  • 異常值會嚴重影響資料集的均值和標準差。這些可能會在統計上給出錯誤的結果。
  • 可能導致偏差或影響估計。
  • 大多數機器學習演算法在存在異常值的情況下都不能很好地工作。
  • 異常值在欺詐檢測等異常檢測中非常有用,其中欺詐交易與正常交易非常不同。

特別是線上性問題中,異常值更能顯示出它們的影響。例如下面的例子;左邊的圖片中當 x 變數的值增加時,y 變數的值減小。但是由於異常值,觀察到隨著變數 x 的值增加,變數 y 的值也增加。異常值扭曲了我們的分析結果。

在上面的示例中,如果從資料集中移除異常值,可以獲得更準確、不會被誤導的測試結果。

完整文章:

https://www.overfit.cn/post/151694f1b1194e6197e8da22c981be7c