異常檢測演算法：Isolation Forest

阿新 • • 發佈：2019-01-18

iForest （Isolation Forest）是由Liu et al. [1] 提出來的基於二叉樹的ensemble異常檢測演算法，具有效果好、訓練快（線性複雜度）等特點。

1. 前言

iForest為聚類演算法，不需要標記資料訓練。首先給出幾個定義：

劃分（partition）指樣本空間一分為二，相當於決策樹中節點分裂；
isolation指將某個樣本點與其他樣本點區分開。

iForest的基本思想非常簡單：完成異常點的isolation所需的劃分數大於正常樣本點（非異常）。如下圖所示：

\(x_i\)樣本點的isolation需要大概12次劃分，而異常點\(x_0\)指需要4次左右。因此，我們可以根據劃分次數來區分是否為異常點。但是，如何建模呢？我們容易想到：劃分對應於決策樹中節點分裂，那麼劃分次數即為從決策樹的根節點到葉子節點所經歷的邊數，稱之為路徑長度（path length）。假設樣本集合共有\(n\)

個樣本點，對於二叉查詢樹（Binary Search Tree, BST），則查詢失敗的平均路徑長度為
\[ c(n) = 2H(n-1) -(2(n-1)/n) \]
其中，\(H(i)\)為harmonic number，可估計為\(\ln (i) + 0.5772156649\)。那麼，可建模anomaly score：

\[ s(x,n) = 2^{-\frac{E(h(x))}{c(n)}} \]

其中，\(h(x)\)為樣本點\(x\)的路徑長度，\(E(h(x))\)為iForest的多棵樹中樣本點\(x\)的路徑長度的期望。特別地，

當\(s\)值越高（接近於1），則表明該點越可能為異常點。若所有的樣本點的\(s\)

值都在0.5左右，則說明該樣本集合沒有異常點。

2. 詳解

iForest採用二叉決策樹來劃分樣本空間，每一次劃分都是隨機選取一個屬性值來做，具體流程如下：

停止分裂條件：

樹達到了最大高度；
落在孩子節點的樣本數只有一個，或者所有樣本點的值均相同；

為了避免錯檢（swamping）與漏檢（masking），在訓練每棵樹的時候，為了更好地區分，不會拿全量樣本，而會sub-sampling樣本集合。iForest的訓練流程如下：

sklearn給出了iForest與其他異常檢測演算法的比較。

3. 參考資料

[1] Liu, Fei Tony, Kai Ming Ting, and Zhi-Hua Zhou. "Isolation forest." Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on

. IEEE, 2008.

異常檢測演算法：Isolation Forest

1. 前言

2. 詳解

3. 參考資料

異常檢測演算法：Isolation Forest

白話異常檢測演算法Isolation Forest

異常檢測演算法--isolation forest

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

常用目標檢測演算法：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

sklearn中異常檢測演算法建模彙總

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

基於圖的異常檢測演算法——概述

目標檢測演算法：RCNN、YOLO vs DPM

時間序列異常檢測演算法S-H-ESD

基於深度學習的目標檢測演算法：Faster R-CNN

碰撞檢測演算法：點和矩形碰撞、矩形碰撞

UEBA 學術界研究現狀——用戶行為異常檢測思路：序列挖掘prefixspan，HMM，LSTM/CNN，SVM異常檢測，聚類CURE算法

異常檢測演算法演變及學習筆記

【異常檢測】孤立森林（Isolation Forest）演算法簡介

【異常檢測】Isolation forest 的spark 分布式實現

簡要介紹Active Learning(主動學習)思想框架，以及從IF（isolation forest）衍生出來的演算法：FBIF（Feedback-Guided Anomaly Discovery）

Python機器學習筆記：異常點檢測演算法——LOF（Local Outiler Factor）

目標檢測演算法理解：從R-CNN到Mask R-CNN

Andrew Ng 機器學習筆記 14 ：異常檢測

異常檢測演算法：Isolation Forest

1. 前言

2. 詳解

3. 參考資料

相關推薦