檢測和處理異常值的極簡指南
阿新 • • 發佈:2022-04-19
本文是關於檢測和處理資料集中的異常值,主要包含以下四部分內容:
- 什麼是異常值?
- 為什麼檢測異常值很重要?
- 如何檢測異常值?
- 如何處理異常值?
什麼是異常值?
異常值是與其他觀察結果顯著不同的資料點。如下圖所示,橙色資料點與一般分佈相去甚遠。我們將此點稱為異常值。
為什麼檢測異常值很重要?
在資料科學專案、統計分析、機器學習應用中檢測異常值非常重要:
- 異常值會導致分佈偏斜。
- 異常值會嚴重影響資料集的均值和標準差。這些可能會在統計上給出錯誤的結果。
- 可能導致偏差或影響估計。
- 大多數機器學習演算法在存在異常值的情況下都不能很好地工作。
- 異常值在欺詐檢測等異常檢測中非常有用,其中欺詐交易與正常交易非常不同。
特別是線上性問題中,異常值更能顯示出它們的影響。例如下面的例子;左邊的圖片中當 x 變數的值增加時,y 變數的值減小。但是由於異常值,觀察到隨著變數 x 的值增加,變數 y 的值也增加。異常值扭曲了我們的分析結果。
在上面的示例中,如果從資料集中移除異常值,可以獲得更準確、不會被誤導的測試結果。
完整文章:
https://www.overfit.cn/post/151694f1b1194e6197e8da22c981be7c