sklearn中異常檢測演算法建模彙總

阿新 • • 發佈：2018-12-29

借鑑於http://scikit-learn.org/stable/modules/outlier_detection.html#novelty-and-outlier-detection

一、概況

兩大異常

novelty detection

這些訓練資料沒有被異常值所汙染，我們有興趣在新的觀測中發現異常。

outlier detection

訓練資料中包含異常值，和我們需要合適的訓練資料中心模式忽略的越軌的意見。

機器學習（無監督學習）

學習：estimator.fit(X_train)
預測：estimator.predict(X_test)，異常值為-1

二、novelty detection

http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#sphx-glr-auto-examples-svm-plot-oneclass-py

Paste_Image.png

以下為建模程式碼：

import numpy as np
from sklearn import svm

xx, yy = np.meshgrid(np.linspace(-5, 5, 500), np.linspace(-5, 5, 500))
# Generate train data 生成訓練資料
X = 0.3 * np.random.randn(100, 2)
X_train = np.r_[X + 2, X - 2]
# Generate some regular novel observations 生成一些常規的新奇觀察
X = 0.3 * np.random.randn(20, 2)
X_test = np.r_[X + 2, X - 2]
# Generate some abnormal novel observations 產生一些異常新穎的觀察
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))

# fit the model 模型學習
clf = svm.OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)
n_error_train = y_pred_train[y_pred_train == -1].size
n_error_test = y_pred_test[y_pred_test == -1].size
n_error_outliers = y_pred_outliers[y_pred_outliers == 1].size

三、Outlier Detection

covariance.EmpiricalCovariance演算法

在高斯分佈資料上顯示具有馬氏距離的協方差估計的示例。

Paste_Image.png

以下為建模程式碼：

import numpy as np
from sklearn.covariance import EmpiricalCovariance, MinCovDet

n_samples = 125
n_outliers = 25
n_features = 2

# generate data 生成資料
gen_cov = np.eye(n_features)
gen_cov[0, 0] = 2.
X = np.dot(np.random.randn(n_samples, n_features), gen_cov)
# add some outliers 新增一些異常值
outliers_cov = np.eye(n_features)
outliers_cov[np.arange(1, n_features), np.arange(1, n_features)] = 7.
X[-n_outliers:] = np.dot(np.random.randn(n_outliers, n_features),outliers_cov)

# fit a Minimum Covariance Determinant (MCD) robust estimator to data
# 擬合最小協方差行列式(MCD)對資料的魯棒估計
robust_cov = MinCovDet().fit(X)

# compare estimators learnt from the full data set with true parameters
# 比較估計器從完整的資料集和真實引數的學習
emp_cov = EmpiricalCovariance().fit(X)

# Computes the squared Mahalanobis distances of given observations.
# 計算給定觀測值的平方Mahalanobis距離。
Y = emp_cov.mahalanobis(X)

ensemble.IsolationForest演算法

在高維資料集中執行異常值檢測的一種有效方法是使用隨機森林

neighbors.LocalOutlierFactor（LOF）演算法

對中等高維資料集執行異常值檢測的另一種有效方法是使用區域性離群因子（LOF）演算法。

結合以上四種異常檢測方法建模比較：

sklearn.svm（支援向量機）
sklearn.covariance.EllipticEnvelope（高斯分佈的協方差估計）
sklearn.ensemble.IsolationForest（隨機森林）
sklearn.neighbors.LocalOutlierFactor（LOF）

Paste_Image.png

import numpy as np
from scipy import stats

from sklearn import svm
from sklearn.covariance import EllipticEnvelope
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor

#隨機數發生器
rng = np.random.RandomState(42)

# Example settings 示例設定
n_samples = 200
outliers_fraction = 0.25
clusters_separation = [0, 1, 2]

# define two outlier detection tools to be compared 定義兩個異常的檢測工具進行比較
classifiers = {
     "One-Class SVM": svm.OneClassSVM(nu=0.95 * outliers_fraction + 0.05,
                                 kernel="rbf", gamma=0.1),
    "Robust covariance": EllipticEnvelope(contamination=outliers_fraction),
    "Isolation Forest": IsolationForest(max_samples=n_samples,
                                    contamination=outliers_fraction,
                                    random_state=rng),
    "Local Outlier Factor": LocalOutlierFactor.LocalOutlierFactor(n_neighbors = 35,
                                           contamination=outliers_fraction)
           }

# Compare given classifiers under given settings 比較給定設定下的分類器
xx, yy = np.meshgrid(np.linspace(-7, 7, 100), np.linspace(-7, 7, 100))
n_inliers = int((1. - outliers_fraction) * n_samples)
n_outliers = int(outliers_fraction * n_samples)
ground_truth = np.ones(n_samples, dtype=int)
ground_truth[-n_outliers:] = -1

# Fit the problem with varying cluster separation 將不同的叢集分離擬合
for i, offset in enumerate(clusters_separation):
    np.random.seed(42)
    # Data generation 生成資料
    X1 = 0.3 * np.random.randn(n_inliers // 2, 2) - offset
    X2 = 0.3 * np.random.randn(n_inliers // 2, 2) + offset
    X = np.r_[X1, X2]
    # Add outliers 新增異常值
   X = np.r_[X, np.random.uniform(low=-6, high=6, size=(n_outliers, 2))]

    # Fit the model 模型擬合
    for i, (clf_name, clf) in enumerate(classifiers.items()):
        # fit the data and tag outliers 擬合數據和標籤離群值
        if clf_name == "Local Outlier Factor":
            y_pred = clf.fit_predict(X)
            scores_pred = clf.negative_outlier_factor_
        else:
            clf.fit(X)
            scores_pred = clf.decision_function(X)
            y_pred = clf.predict(X)
        threshold = stats.scoreatpercentile(scores_pred,
                                        100 * outliers_fraction)
        n_errors = (y_pred != ground_truth).sum()
        print(scores_pred)
        if clf_name == "Local Outlier Factor":
            # decision_function is private for LOF 決策函式是LOF的私有函式
            Z = clf._decision_function(np.c_[xx.ravel(), yy.ravel()])
        else:
            Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
        Z = Z.reshape(xx.shape)
        print(Z)

sklearn中異常檢測演算法建模彙總

借鑑於http://scikit-learn.org/stable/modules/outlier_detection.html#novelty-and-outlier-detection 一、概況兩大異常 novelty detection 這些訓練資料沒有被異常值所汙染，我們有

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測

深度學習中目標檢測演算法 RCNN、Fast RCNN、Faster RCNN 的基本思想

前言影象分類，檢測及分割是計算機視覺領域的三大任務。即影象理解的三個層次：分類（Classification），即是將影象結構化為某一類別的資訊，用事先確定好的類別(string)或例項ID來描述圖片。這一任務是最簡單、最基礎的影象理解任務，也是深度學習模型最先取得突

faster r-cnn中評價檢測演算法中的指標

小魚在用faster r-cnn進行目標檢測時，必不可少要對結果進行評價，業界統一的評價檢測指標是看RP曲線和AUC的值。看了很多網上別人寫的歸納，這裡做一個統一，也是怕自己忘記，又要去翻天覆地的搜尋。為方便理解，不被繞暈，先舉一批資料例子和一張說明圖：

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

異常檢測問題介紹：異常檢測演算法主要用於無監督學習問題，但從某種角度看它又類似於一種有監督學習的問題，下面我們從一個例子中簡單介紹一下什麼是異常檢測問題。比如我們有一個飛機引擎製造商，對於一個新造出的飛機引擎我們想判斷這個引擎是不是異常的。假如我們有

基於圖的異常檢測演算法——概述

正在調研基於圖的異常檢測演算法，先出個概述，後面再慢慢填坑基於圖的異常檢測給定一個圖資料庫，找到其中罕見不同於其他資料物件的點/邊/子結構靜態圖的異常檢測普通靜態圖基於結構

白話異常檢測演算法Isolation Forest

前言好久沒講演算法了，今天分享一個異常點檢測演算法Isolation Forest。之前也是沒聽說過這個演算法，中文名叫孤立森林，聽客戶講了就順便查了下這個演算法的論文，感覺還是非常有用滴。異常檢測的概念首先聊下什麼是異常檢測，異常檢測就是發現一堆資料中

異常檢測演算法：Isolation Forest

iForest （Isolation Forest）是由Liu et al. [1] 提出來的基於二叉樹的ensemble異常檢測演算法，具有效果好、訓練快（線性複雜度）等特點。 1. 前言 iForest為聚類演算法，不需要標記資料訓練。首先給出幾個定義：劃分（partition）指樣本空間一分為二，相

時間序列異常檢測演算法S-H-ESD

1. 基於統計的異常檢測 Grubbs' Test Grubbs' Test為一種假設檢驗的方法，常被用來檢驗服從正太分佈的單變數資料集（univariate data set）\(Y\) 中的單個異常值。若有異常值，則其必為資料集中的最大值或最小值。原假設與備擇假設如下： \(H_0\): 資料集中沒有異常

Python機器學習庫sklearn幾種迴歸演算法建模及分析(實驗)

最簡單的迴歸模型就是線性迴歸資料匯入與視覺化分析 from IPython.display import Image %matplotlib inline # Added version che

異常檢測演算法--isolation forest

轉自： http://www.cnblogs.com/fengfenggirl/p/iForest.html 南大周志華老師在2010年提出一個異常檢測演算法Isolation Forest，在工業界很實用，演算法效果好，時間效率高，能有效處理高維資料和海量資料，這裡對這個

異常檢測演算法演變及學習筆記

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】異常檢測，又稱離群點檢測，有著廣泛應用。例如金融反欺詐、工業損毀檢測、電網竊電行為等！一、基於時間序列分析關於時間序列分析的介紹，歡迎瀏覽我的另一篇部

sklearn異常檢測demo

sklearn 異常檢測demo程式碼走讀 # 0基礎學python，讀程式碼學習python元件api import time import numpy as np import matplotlib import matplotlib.pyplot as plt from sklearn im

目標檢測演算法中檢測框合併策略技術綜述

物體檢測（Object Detection）的任務是找出影象或視訊中的感興趣目標，同時實現輸出檢測目標的位置和類別，是機器視覺領域的核心問題之一，學術界已有將近二十年的研究歷史。隨著深度學習技術的火熱發展，目標檢測演算法也從基於手工特徵的傳統演算法轉向了基於深度神經網路的檢測技術。從最初 2013

目標檢測演算法彙總比較

作者：金天連結：https://zhuanlan.zhihu.com/p/39579528 來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。很難衡量一個檢測演算法的好壞，因為除了演算法本身的思路之外，還有許多因素影響它的速度和精度，比如：

SLS機器學習介紹（03）：時序異常檢測建模

文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘 SLS機器學習最佳實戰：時序異常檢測和報警摘要與背景雖然計算機軟硬體的快速發展已

R中異常值檢測

data1=complete.cases(selectdata) #布林判斷 # true代表1，false代表0 sum(complete.cases(selectdata)) #完整資料200條 sum(!complete.cases(selectdata)) #不完整資料1條 m

人臉識別中的活體檢測演算法綜述

1. 什麼是活體檢測？判斷捕捉到的人臉是真實人臉，還是偽造的人臉攻擊（如：彩色紙張列印人臉圖，電子裝置螢幕中的人臉數字影象以及面具等）2. 為什麼需要活體檢測？在金融支付，門禁等應用場景，活體檢測一般是巢狀在人臉檢測與人臉識別or驗證中的模組，用來驗證是否使用者真實

【資料集+評測】視訊序列中的運動檢測演算法

運動檢測評測指標經典演算法 1 SOBS 2 ViBe 3 KNN 深度學習方法 1 FgSegNet 2 Cascade CNN

adaboost演算法原理及sklearn中使用辦法

　　轉自https://www.cnblogs.com/pinard/p/6136914.html，感謝作者在整合學習原理小結中，我們講到了整合學習按照個體學習器之間是否存在依賴關係可以分為兩類，第一個是個體學習器之間存在強依賴關係，另一類是個體學習器之間不存在強

sklearn中異常檢測演算法建模彙總

一、概況

二、novelty detection

三、Outlier Detection

相關推薦