1. 程式人生 > >異常檢測之正態分佈

異常檢測之正態分佈


這裡寫圖片描述
開啟微信掃一掃,關注微信公眾號【資料與演算法聯盟】

轉載請註明出處:http://blog.csdn.net/gamer_gyt
博主微博:http://weibo.com/234654758
Github:https://github.com/thinkgamer

一:異常檢測概述

1)引用維基百科

在資料探勘中,異常檢測(英語:anomaly detection)對不匹配預期模式或資料集中其他專案的專案、事件或觀測值的識別。通常異常專案會轉變成銀行欺詐、結構缺陷、醫療問題、文字錯誤等型別的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。

特別是在檢測濫用與網路入侵時,有趣性物件往往不是罕見物件,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見物件,於是許多異常檢測方法(特別是無監督的方法)將對此類資料失效,除非進行了合適的聚集。相反,聚類分析演算法可能可以檢測出這些模式形成的微聚類。

2)有三大類異常檢測演算法

在假設資料集中大多數例項都是正常的前提下
- 無監督異常檢測方法能通過尋找與其他資料最不匹配的例項來檢測出未標記測試資料的異常。
- 監督式異常檢測方法需要一個已經被標記“正常”與“異常”的資料集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。
- 半監督式異常檢測方法根據一個給定的正常訓練資料集建立一個表示正常行為的模型,然後檢測由學習模型生成的測試例項的可能性。

3)應用領域

異常檢測技術用於各種領域,如入侵檢測、欺詐檢測、故障檢測、系統健康監測、感測器網路事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從資料集的異常資料。在監督式學習中,去除異常資料的資料集往往會在統計上顯著提升準確性。

二:正態分佈

1)正態分佈介紹

正態分佈又名高斯分佈,是一個在數學,物理以及工程等領域都非常重要的概率分佈。由於這個分佈函式有很多漂亮的性質,使得其在諸多設計統計科學離散科學等許多領域都有著重大的影響力。

若隨機變數X服從一個位置引數為 μ 尺度引數為 σ 的概率分佈,記為:

XN(μ,σ2)

則其概率密度函式為

f(x)=1σ2πe(xμ)22σ2
正態分佈的數學期望值或期望值 μ 等於位置引數,決定了分佈的位置;其方差 σ2 的開平方或標準差 σ 等於尺度引數,決定了分佈的幅度。

2) 標準正態分佈

μ = 0, σ=1 ,這個分佈被稱為標準正態分佈,這個分佈可以簡化為:

f(x)=12πexp(x22)

不同引數的正態分佈圖:

這裡寫圖片描述

3)正態分佈中一些值得注意的量:

  • 密度函式關於平均值對稱
  • 平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
  • 函式曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
  • 95.449974%的面積在平均數左右兩個標準差 2σ 的範圍內。
  • 99.730020%的面積在平均數左右三個標準差 3σ 的範圍內。
  • 99.993666%的面積在平均數左右四個標準差 4σ 的範圍內。
  • 函式曲線的反曲點(inflection point)為離平均數一個標準差距離的位置。

更多基礎資料參考WIKI :點選檢視

三:異常點檢測介紹

異常點檢測(又稱為離群點檢測)是找出其行為很不同於預期物件的一個檢測過程。這些物件被稱為異常點或者離群點。異常點檢測在很多實際的生產生活中都有著具體的應用,比如信用卡欺詐,工業損毀檢測,影象檢測等。

異常點(outlier)是一個數據物件,它明顯不同於其他的資料物件,就好像它是被不同的機制產生的一樣。例如下圖紅色的點,就明顯區別於藍色的點。相對於藍色的點而言,紅色的點就是異常點。

這裡寫圖片描述

一般來說,進行異常點檢測的方法有很多,最常見的就是基於統計學的方法。

1)基於正態分佈的一元離群點檢測方法

假設有 n 個點 (x1,...,xn),那麼可以計算出這 n 個點的均值μ 和方差 σ。均值和方差分別被定義為:

μ=i=1nxi/n σ2=i=1n(xiμ)2/n.
在正態分佈的假設下,區域 μ±3σ 包含了99.7% 的資料,如果某個值距離分佈的均值μ 超過了3σ,那麼這個值就可以被簡單的標記為一個異常點(outlier)。

2)多元離群點的檢測方法

涉及兩個或者兩個以上變數的資料稱為多元資料,很多一元離群點的檢測方法都可以擴充套件到高維空間中,從而處理多元資料。

(1) 基於一元正態分佈的離群點檢測方法

假設 n 維的資料集合形如x⃗ i=(xi,1,...,xi,n),i{1,...,m},那麼可以計算每個維度的均值和方差μj,σj,j{1,...,n}. 具體來說,對於j{1,...,n},可以計算

μj=i=1mxi,j/m σ2j=i=1m(xi,jμj)2/m
在正態分佈的假設下,如果有一個新的資料 x⃗ ,可以計算概率 p(x⃗ ) 如下:
p(x⃗ )=j=1np(xj;μj,σ2

相關推薦

異常檢測分佈

開啟微信掃一掃,關注微信公眾號【資料與演算法聯盟】 轉載請註明出處:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.

[貝葉斯七]分佈貝葉斯決策

貝葉斯是非常傳統,理論簡單,但是非常有效的一種機器學習方法。經過大量實驗表明,貝葉斯方法是極具魯棒性的。至今為止仍然有很多人在研究貝葉斯的基礎理論,而且發現許多演算法都可以由貝葉斯推導而來,所以貝葉斯是具有極大的研究價值的理論。 這一章節我們就來扯一扯正

【Derivation】MarkDown Letex編碼 分佈特徵函式證明

**求證:$\varphi(u)=e^{jau-\frac{1}{2}u^2\sigma^2} \ \ \ , t\in R $** **證:** * * $$\varphi(u)=\i

【程式設計師眼中的統計學(7)】分佈的運用:

作者 白寧超 2015年10月15日18:30:07 摘要:程式設計師眼中的統計學系列是作者和團隊共同學習筆記的整理。首先提到統計學,很多人認為是經濟學或者數學的專利,與計算機並沒有交集。誠然在傳統學科中,其在以上學科發揮作用很大。然而隨著科學技術的發展和機器智慧的普及,統計學在機器智慧中的作用越來

分佈python

望為、標準方差為的高斯分佈,記為: 則其概率密度函式為: 正態分佈的期望值決定了其位置,其標準差決定了分佈的幅度。因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。我們通常所說的標準正態分佈是的正態分佈: 概率密度函式程式碼實現: # Python實現正態分佈 #

機器視覺學習--貝葉斯學習 MATLAB二維分佈二維圖

1、貝葉斯介紹 我個人一直很喜歡演算法一類的東西,在我看來演算法是人類智慧的精華,其中蘊含著無與倫比的美感。而每次將學過的演算法應用到實際中,並解決了實際問題後,那種快感更是我在其它地方體會不到的。       一直想寫關於演算法的博文,也曾寫過零散的兩篇,但也許是相

從np.random.normal()到分佈的擬合

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

截斷分佈 Truncated normal distribution

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

分佈,銳利分佈,萊斯分佈 matlab擬合原始碼

如果你得到一堆數,你想知道它們的大致分佈,該怎麼辦呢?kedensity命令可以幫助你解決這個問題。命令如下: [f,xi]=ksdensity(x) plot(xi,f) 其中,f是估計的密度值,而xi是一個輔助引數,用來決定畫出圖形的取值區間,簡言之,xi大致涵蓋了x的取值區間。

分佈的理解

一、概念 概念:正態分佈,又稱高斯分佈。其特徵為中間高兩邊低左右對稱。 特性: 1)集中性:曲線的最高峰位於正中央,且位置為均數所在的位置。 2)對稱性:正態分佈曲線以均數所在的位置為中心左右對稱且曲線兩段無線趨近於橫軸。 3)均勻變動性:正態分佈曲線以均數所在的位置為中心均勻向左右兩側

課堂練習--計算陣列的最大值,最小值,平均值,標準差,中位數;numpy.random模組提供了產生各種分佈隨機數的陣列;分佈;Matplotlib

#計算陣列的最大值,最小值,平均值,標準差,中位數 import numpy as np a=np.array([1, 4, 2, 5, 3, 7, 9, 0]) print(a) a1=np.max(a) #最大值 print(a1) a2=np.min(a) #最小值 print(a2) a3

分佈(normal distribution)與偏分佈(skewed distribution)

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

np.random.rand均勻分佈隨機數和np.random.randn分佈隨機數函式使用方法

np.random.rand用法 覺得有用的話,歡迎一起討論相互學習~Follow Me 生成特定形狀下[0,1)下的均勻分佈隨機數 np.random.rand(a1,a2,a3…)生成形狀為(a1,a2,a3…),[0,1)之間的 均勻分佈 隨機數 np

關於使用scipy.stats.lognorm來模擬對數分佈的誤區

lognorm方法的引數容易把人搞蒙。例如lognorm.rvs(s, loc=0, scale=1, size=1)中的引數s,loc,scale, 要記住:loc和scale並不是我們通常理解的對數變化後資料的均值mu和標準差sigma,如下面所述: The probability density

黎曼和 Riemann Sum ,黎曼積分Riemann Integral,分佈normal distribution

       這裡有一塊形狀不規則的土地,要測量它的面積,怎麼辦呢?一個叫黎曼的德國數學家(Bernhard Riemann, 1826-1866),他想了個辦法:將這不規則圖形切成一條條的小長條兒,然後將這個長條近似的看成一個矩形,再分別測量出這些小矩形的長

MATLAB繪製分佈概率密度函式(normpdf)圖形

這裡是一個簡單的實現程式碼 x=linspace(-5,5,50); %生成負五到五之間的五十個數,行向量 y=normpdf(x,0,1); plot(x,y,‘k’); 圖片複製不過來。。就擺個連結好了 https://jingyan.baidu.com/article/6fb756ec

在python中畫分佈/正弦曲線影象/心形線

1 在python中畫正態分佈圖像 import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt def demo2(): mu, sigma , num_bins = 0,

均勻分佈差生分佈

文章目錄 中心極限定理 中心極限定理 中心極限定理是說,n只要越來越大,這n個數的樣本均值會趨近於正態分佈,並且這個正態分佈以u為均值,sigma^2/n為方差。 換句話說,假設我們與樣本

分佈隨機數的產生

最近平凡聽到關於正態分佈取樣相關的內容,突然想到一個問題: 到底如何利用正態分佈取樣? 正好近期模式識別課程上也有一個相關的內容,整理了一下查到的資料。 一。柱狀圖估計分佈 假設樣本 x N(u,θ) x~N(u, \theta), 其pdf圖如下:

R 資料分佈檢驗

                        使用R檢測資料是