樹模型-孤立森林

阿新 • • 發佈：2018-12-09

樹模型

1、決策樹 ID3，C4.5，CART

2、隨機森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（異常檢測）

六、孤立森林

孤立森林（Isolation Foreset）是基於樹（iTree）整合的快速異常檢測方法，其異常檢測的核心思想是“異常點是容易被孤立的離群點”。因此，孤立森林採用隨機特徵隨機閾值劃分生成多個樹，直到樹到達一定的高度或者直到每個葉子節點中只有一個點。那麼，那些離群點很容易被提前（即所在葉子節點的深度較淺）被劃分出來。由於每個樹都是由隨機取樣獨立生成的，所以樹之間具有一定的獨立性，多個樹的整合就是最終的孤立森林。

這裡寫圖片描述

可以看出，按照離群點大概率為異常點的話，那麼d最有可能為異常點。

下面簡單介紹孤立森林的流程和細節：

1）從訓練集中隨機選擇（有放回和無放回） $n$ 個樣本點構成子集 $Ω_{i}, i \in 1, 2.. m$ ，在 $m$ 個子集上構建樹

2）隨機選擇一個特徵，隨機選擇一個閾值（最大值與最小值之間）進行二分裂

3）遞迴2）建樹，直到樹到達一定的高度 $d$ 或者每個葉子節點中只有一個點。

4） $m$ 個樹建好，根據 $m$ 個決策樹的平均深度來定義其異常的概率

a）統計每棵樹的BST路徑長度定義:

c (n) = 2 H (n - 1) - (2 (n - 1) / n)

b）定義異常的概率為：

s (x, n) = 2^{(- \frac{E (h (x))}{c (n)})}

c (n)

是

h (x)

在給定

n

下的平均值, 其中的

H (k)

可以通過公式

H (k) = l n (k) + ξ

來估計，

ξ

是尤拉常數，其值為0.5772156649，

k

為從根節點到葉子節點的路徑長度。

5）計算異常概率：

a）當 $E (h (x)) = c (n)$ ， $s (x, n) = \frac{1}{2}$

b）當 $E (h (x)) \to 0$

x))→0，

s (x, n) = 1

c）當 $E (h (x)) \to n - 1$ ， $s (x, n) = 0$

從上面建樹的過程，可以看出孤立森林是針對連續值屬性的，二分裂二叉樹，當然離散值屬性我想也是可以的。

孤立森林的特點：

1）每棵樹隨機取樣獨立生成，所以孤立森林具有很好的處理大資料的能力和速度

2）通常樹的數量越多，演算法越穩定，樹的深度不易過深

3）孤立森林不適於特別高維的資料。因為子樹的構建每次只選一個特徵，容易受噪聲影響

sklearn中孤立森林的引數設定：

n_estimators ：iTree的個數 $m$

max_samples ：構建子樹的樣本數 $n$ ，整數為個數，小數為佔全集的比例

contamination ：異常的閾值

max_features ：構建每個子樹的特徵數，整數位個數，小數為佔全特徵的比例

bootstrap ：取樣是有放回還是無放回

n_jobs ：並行數

random_state ：每次訓練的隨機性

verbose ：建樹的過程描述輸出

樹模型-孤立森林

樹模型

1、決策樹 ID3，C4.5，CART

2、隨機森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（異常檢測）

六、孤立森林

樹模型-孤立森林

樹模型-隨機森林RF

決策樹模型組合之隨機森林與GBDT（轉）

機器學習之決策樹與隨機森林模型

決策樹與隨機森林

sklearn中樹模型可視化的方法

異常檢測概覽——孤立森林和局部異常因子算法效果是最好的

決策樹模型與學習《一》

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

[三]機器學習之決策樹與隨機森林

R語言︱決策樹族——隨機森林演算法

在OpenCV中實現決策樹和隨機森林

樹模型為什麼是不能進行梯度下降

機器學習——決策樹和隨機森林演算法

基於決策樹模型對 IRIS 資料集分類

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

（三）提升樹模型：Lightgbm原理深入探究

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

【機器學習】決策樹與隨機森林（轉）

機器學習樹模型——決策樹

樹模型-孤立森林

樹模型

1、決策樹 ID3，C4.5，CART

2、隨機森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（異常檢測）

六、孤立森林

相關推薦