用於時間序列異常檢測的學生化殘差( studentized residual)的理論和程式碼實現
阿新 • • 發佈:2022-04-02
異常檢測是指資料科學中可幫助發現數據集中的異常值有用的技術。異常檢測在處理時間序列資料時特別有用。例如時間序列資料來自感測器測量結果(例如壓力和溫度),由於裝置故障和瞬態現象等問題包含許多異常點, 異常檢測有助於消除這些點異常值,以優化時間序列資料中的訊號。對於銷量預測等需求異常點也可以表示為活動或者營銷的記錄,可以進行重點分析。
在這篇文章中,將介紹一個可用於檢測異常值的簡單但高效的演算法,該演算法來自論文(https://www.researchgate.net/publication/231046287_Measurement_of_free_surface_deformation_in_PIV_images)
時間序列異常檢測演算法
下圖說明了可以在測量感測器的日常操作中觀察到的時間序列資料的典型示例。橙色線表示基礎訊號,而藍色峰表示可能由於測量讀數中的尖峰而出現的異常點。在這種情況下,我們所需的異常檢測工具的目的是通過刪除那些異常點來簡單地細化訊號。
我們將點異常定義為與其預期值完全不同的任何點。在這篇文章中展示的演算法是通過使用多項式迴歸和學生化殘差( studentized residual也叫學生化刪除的殘差)來識別這些異常。
第一步是定義一條多項式曲線,為資料集的基礎訊號提供估計。
為了將這條曲線擬合到資料中,必須通過最小化某個損失函式來確定係數(直到 N 級)。通常損失函式可以定義為普通殘差的最小化,其計算為實際值與其預測值之間的差異。
完整文章:
https://www.overfit.cn/post/7dba63d4464c4e8f8881331457541e29