開啟微信掃一掃，關注微信公眾號【資料與演算法聯盟】

轉載請註明出處：http://blog.csdn.net/gamer_gyt
博主微博：http://weibo.com/234654758
Github：https://github.com/thinkgamer

一：異常檢測概述

1）引用維基百科

在資料探勘中，異常檢測（英語：anomaly detection）對不匹配預期模式或資料集中其他專案的專案、事件或觀測值的識別。通常異常專案會轉變成銀行欺詐、結構缺陷、醫療問題、文字錯誤等型別的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。

特別是在檢測濫用與網路入侵時，有趣性物件往往不是罕見物件，但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見物件，於是許多異常檢測方法（特別是無監督的方法）將對此類資料失效，除非進行了合適的聚集。相反，聚類分析演算法可能可以檢測出這些模式形成的微聚類。

2）有三大類異常檢測演算法

在假設資料集中大多數例項都是正常的前提下
- 無監督異常檢測方法能通過尋找與其他資料最不匹配的例項來檢測出未標記測試資料的異常。
- 監督式異常檢測方法需要一個已經被標記“正常”與“異常”的資料集，並涉及到訓練分類器（與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性）。
- 半監督式異常檢測方法根據一個給定的正常訓練資料集建立一個表示正常行為的模型，然後檢測由學習模型生成的測試例項的可能性。

3）應用領域

異常檢測技術用於各種領域，如入侵檢測、欺詐檢測、故障檢測、系統健康監測、感測器網路事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從資料集的異常資料。在監督式學習中，去除異常資料的資料集往往會在統計上顯著提升準確性。

二：正態分佈

1）正態分佈介紹

正態分佈又名高斯分佈，是一個在數學，物理以及工程等領域都非常重要的概率分佈。由於這個分佈函式有很多漂亮的性質，使得其在諸多設計統計科學離散科學等許多領域都有著重大的影響力。

若隨機變數X服從一個位置引數為 μ 尺度引數為 σ 的概率分佈，記為：

X∼N(μ,σ2)

則其概率密度函式為

f(x)=1σ2π‾‾‾√e−(x−μ)22σ2
正態分佈的數學期望值或期望值 μ 等於位置引數，決定了分佈的位置；其方差 σ2 的開平方或標準差 σ 等於尺度引數，決定了分佈的幅度。

2）標準正態分佈

若 μ = 0, σ=1 ,這個分佈被稱為標準正態分佈，這個分佈可以簡化為：

f(x)=12π‾‾‾√exp(−x22)

不同引數的正態分佈圖：

這裡寫圖片描述

3）正態分佈中一些值得注意的量：

密度函式關於平均值對稱
平均值與它的眾數（statistical mode）以及中位數（median）同一數值。
函式曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
95.449974%的面積在平均數左右兩個標準差 2σ 的範圍內。
99.730020%的面積在平均數左右三個標準差 3σ 的範圍內。
99.993666%的面積在平均數左右四個標準差 4σ 的範圍內。
函式曲線的反曲點（inflection point）為離平均數一個標準差距離的位置。

更多基礎資料參考WIKI ：點選檢視

三：異常點檢測介紹

異常點檢測（又稱為離群點檢測）是找出其行為很不同於預期物件的一個檢測過程。這些物件被稱為異常點或者離群點。異常點檢測在很多實際的生產生活中都有著具體的應用，比如信用卡欺詐，工業損毀檢測，影象檢測等。

異常點（outlier）是一個數據物件，它明顯不同於其他的資料物件，就好像它是被不同的機制產生的一樣。例如下圖紅色的點，就明顯區別於藍色的點。相對於藍色的點而言，紅色的點就是異常點。

這裡寫圖片描述

一般來說，進行異常點檢測的方法有很多，最常見的就是基於統計學的方法。

1）基於正態分佈的一元離群點檢測方法

假設有 n 個點 (x1,...,xn)，那麼可以計算出這 n 個點的均值μ 和方差 σ。均值和方差分別被定義為：

μ=∑i=1nxi/n σ2=∑i=1n(xi−μ)2/n.
在正態分佈的假設下，區域 μ±3σ 包含了99.7% 的資料，如果某個值距離分佈的均值μ 超過了3σ，那麼這個值就可以被簡單的標記為一個異常點（outlier）。

2）多元離群點的檢測方法

涉及兩個或者兩個以上變數的資料稱為多元資料，很多一元離群點的檢測方法都可以擴充套件到高維空間中，從而處理多元資料。

(1) 基於一元正態分佈的離群點檢測方法

假設 n 維的資料集合形如x⃗ i=(xi,1,...,xi,n),i∈{1,...,m}，那麼可以計算每個維度的均值和方差μj,σj,j∈{1,...,n}. 具體來說，對於j∈{1,...,n}，可以計算

μj=∑i=1mxi,j/m σ2j=∑i=1m(xi,j−μj)2/m
在正態分佈的假設下，如果有一個新的資料 x⃗ ，可以計算概率 p(x⃗ ) 如下：
p(x⃗ )=∏j=1np(xj;μj,σ2

異常檢測之正態分佈

一：異常檢測概述

1）引用維基百科

2）有三大類異常檢測演算法

3）應用領域

二：正態分佈

1）正態分佈介紹

2）標準正態分佈

3）正態分佈中一些值得注意的量：

三：異常點檢測介紹

1）基於正態分佈的一元離群點檢測方法

2）多元離群點的檢測方法

(1) 基於一元正態分佈的離群點檢測方法

異常檢測之正態分佈

[貝葉斯七]之正態分佈貝葉斯決策

【Derivation】MarkDown Letex編碼之正態分佈特徵函式證明

【程式設計師眼中的統計學（7）】正態分佈的運用：正態之美

正態分佈之python

機器視覺學習之--貝葉斯學習 MATLAB二維正態分佈二維圖

從np.random.normal()到正態分佈的擬合

截斷正態分佈 Truncated normal distribution

正態分佈，銳利分佈，萊斯分佈 matlab擬合原始碼

正態分佈的理解

課堂練習--計算陣列的最大值，最小值，平均值，標準差，中位數；numpy.random模組提供了產生各種分佈隨機數的陣列；正態分佈；Matplotlib

正態分佈（normal distribution）與偏態分佈（skewed distribution）

np.random.rand均勻分佈隨機數和np.random.randn正態分佈隨機數函式使用方法

關於使用scipy.stats.lognorm來模擬對數正態分佈的誤區

黎曼和 Riemann Sum ，黎曼積分Riemann Integral，正態分佈normal distribution

MATLAB繪製正態分佈概率密度函式(normpdf)圖形

在python中畫正態分佈/正弦曲線影象/心形線

均勻分佈差生正態分佈

正態分佈隨機數的產生

R 資料正態分佈檢驗

異常檢測之正態分佈

一：異常檢測概述

1）引用維基百科

2）有三大類異常檢測演算法

3）應用領域

二：正態分佈

1）正態分佈介紹

2） 標準正態分佈

3）正態分佈中一些值得注意的量：

三：異常點檢測介紹

1）基於正態分佈的一元離群點檢測方法

2）多元離群點的檢測方法

(1) 基於一元正態分佈的離群點檢測方法

相關推薦

2）標準正態分佈