1. 程式人生 > >【資料異常校驗】拉依達準則( PauTa Criterion 或 3σ準則) 處理異常資料

【資料異常校驗】拉依達準則( PauTa Criterion 或 3σ準則) 處理異常資料

拉依達準則是指先假設一組檢測資料只含有隨機誤差,對其進行計算處理得到標準偏差,按一定概率確定一個區間,認為凡超過這個區間的誤差,就不屬於隨機誤差而是粗大誤差,含有該誤差的資料應予以剔除。

這種判別處理原理及方法僅侷限於對正態或近似正態分佈的樣本資料處理,它是以測量次數充分大為前提(樣本>10),當測量次數少的情形用準則剔除粗大誤差是不夠可靠的。

3σ法則為:

  • 數值分佈在(μ-σ,μ+σ)中的概率為0.6827
  • 數值分佈在(μ-2σ,μ+2σ)中的概率為0.9545
  • 數值分佈在(μ-3σ,μ+3σ)中的概率為0.9973

可以認為,Y 的取值幾乎全部集中在(μ-3σ,μ+3σ)區間內,超出這個範圍的可能性僅佔不到0.3%.

正態分佈:

深藍色區域是距平均值小於一個標準差之內的數值範圍。在正態分佈中,此範圍所佔比率為全部數值之68%,根據正態分佈,兩個標準差之內的比率合起來為95%;三個標準差之內的比率合起來為99%

演算法實現:

  1. 首先需要保證需要檢驗的資料列大致上服從正態分佈;
  2. 然後計算需要檢驗的資料列的標準差;
  3. 最後比較資料列的每個值,是否大於標準差的3倍;
  4. 大於3倍標準差的刪除該樣本。