使用孤立森林進行無監督的離群檢測

阿新 • • 發佈：2022-03-20

孤立森林是一種無監督演算法的異常檢測，可以快速檢測資料集中的異常值。

孤立森林是一種簡單但非常有效的演算法，能夠非常快速地發現數據集中的異常值。理解這個演算法對於處理表格資料的資料科學家來說是必須的，所以在本文中將簡要介紹演算法背後的理論及其實現。

由於其演算法非常的簡單並且高效，所以 Scitkit Learn 已經將其進行了高效的實現，我們可以直接呼叫使用。但在直接進入示例之前，還是需要介紹其背後的理論，這樣才可以深入的瞭解該演算法的。

一些理論

1、什麼是異常？

異常（異常值）可以描述為資料集中與其他資料或觀察結果顯著不同的資料點。發生這種情況的原因有幾個：

異常值可能表示錯誤資料不正確或實驗可能未正確執行。

異常值可能是由於隨機變化或可能表明某些科學上有趣的東西。

2、為什麼要進行異常檢測？

我們之所以想要找出和深入研究異常，是因為這些資料點要麼會浪費的時間和精力，要麼可以讓我們識別出有意義的東西。

在簡單線性迴歸的情況下，錯誤的異常值會增加模型的方差，並進一步降低模型對資料的把握能力。異常值導致迴歸模型（尤其是線性模型）學習對異常值的偏差理解。

孤立森林如何工作

其他的方法一直在嘗試構建正常資料的配置檔案（分佈、規律等），然後進一步將哪些不符合配置檔案的資料點識別為異常。

而孤立森林的亮點在於它可以使用“孤立”規則來直接檢測異常（一個數據點與其餘資料的距離）。這意味著該演算法可以像其他與距離相關的模型（例如 K-Nearest Neighbors）一樣以線性時間複雜度執行。

該演算法是通過以異常值最明顯的特點為中心來進行工作：

只會有幾個異常值
有異常值肯定與其他值不同

孤立森林通過引入（一組）二叉樹來實現，該二叉樹通過隨機選擇一個特徵然後隨機選擇該特徵的分割值來遞迴地生成分割槽。分割槽過程將一直持續，直到它將所有資料點與其餘樣本分開。

因為每棵樹的例項中只選擇一個特徵。可以說決策樹的最大深度實際上是一，所以孤立森林的基本估計器實際上是一個具有各種資料子集的極其隨機的決策樹（ExtraTrees）。

孤立森林中的一棵樹的示例如下：

上圖異常值的屬性，可以觀察到與正常樣本相比異常值平均需要更少的分叉就能將它們隔離。每個資料點將在X輪之後根據它們被隔離的容易程度獲得分數，有異常分數的資料點將被標記為異常。

完整文章：

https://www.overfit.cn/post/079d4e026b3d42fd9131f14036a6a0f1

使用孤立森林進行無監督的離群檢測

孤立森林是一種無監督演算法的異常檢測，可以快速檢測資料集中的異常值。

基於RNN自編碼器的離群點檢測

作者|David Woroniuk 編譯|VK 來源|Towards Data Science 什麼是異常異常，通常稱為異常值，是指資料中不符合資料系列總體行為的資料點、資料序列或模式。因此，異常檢測就是檢測不符合更廣泛資料中的模式的資料點

【異常檢測】DAGMM：結合深度自編碼器器和GMM的端到端無監督網路（二）：程式碼實戰（PyTorch）

技術標籤：paper研讀機器學習異常檢測無監督學習程式碼部分基於PyTorch1.6.0，使用網路入侵異常檢測資料集KDDCUP99來訓練和評測，完整程式碼見：GitHub。

Excel 檢測離群值 Outlier，極端值判斷教學

介紹如何使用 Excel 檢測離群值（outlier）或極端值（extreme value），找出可能有問題的資料。

智慧主題檢測與無監督機器學習：識別顏色教程

介紹人工智慧學習通常由兩種主要方法組成：監督學習和無監督的學習。監督學習包括使用現有的訓練集，這種訓練集由預先標記的分類資料列組成。機器學習演算法會發現資料的特徵和這一列的標籤(或輸出)之間的關聯。通

【Scikit-Learn 中文文件】新異類和異常值檢測 - 無監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/outlier_detection.html

Python箱型圖處理離群點的例子

首先我們簡單地區分一下離群點（outlier）以及異常值（anomaly）：離群點：異常值：

python:刪除離群值操作(每一行為一類資料)

刪除有多行字串的json檔案中的離群值 def processHold(eachsubject,directory,newfile): filename = \'CMUDataCol/Hold/subject{0}.json\'.format(eachsubject) # 原檔案

FINEMAP：使用GWAS摘要資料進行無功能註釋資料的精細定位（Fine-mapping）

介紹全基因組關聯分析（GWAS）是非常流行的定位表型或疾病遺傳位點方法。不過很多情況下，GWAS 發現的最顯著的 SNP（top SNP 或者 index SNP）並不是真正造成影響的causal SNP（因果SNP），而是因為跟 causal SNP 之

利用隨機森林進行特徵重要性評估

https://blog.csdn.net/xiezhen_zheng/article/details/82011908 import pandas as pd df = pd.read_csv(\'D:Users/FengZH2/Desktop/test/testdata.csv\',encoding=\'gbk\')

無監督學習 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用於視覺表示學習的動量對比。作者：Kaiming He 以及FAIR的一眾大佬 Summary 這篇文章主要解決的是無監督視覺表示學習問題。作者從將對比學習看做字典查詢（dictionary look-up）出發，使用佇列（queue）和

邱錫鵬神經網路與深度學習課程【十三】——無監督學習和概率圖模型1

無監督學習定義：只從無標籤的資料中學習出一些有用的模式典型的無監督學習：深度學習中只考慮前兩個問題即可

Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】

文章目錄 Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】一、相關概念1.1 監督學習（Supervised learning）1.2 無監督學習（Unsuper

深度解析做亞馬遜無貨源店群必知點

本篇文章由作者愛吃豆芽CAl（niubei1816）創作亞馬遜跨境電商是創業者的機會，國家現在對跨境電商有著扶持政策，這也是因為我們國家是以以製造業為主的大國，低水平消費者比較多，所以勞動力也就比較廉價。

實戰經驗：“拼多多無貨源店群”新手0基礎創業，老司機手把手教你開店，月入過萬！

微信公眾號：可可無貨源電商最近有好多朋友問我，現在開網店的那麼多，前景怎麼樣，還能賺到錢嗎？想必這個問題是每一個想做電商的朋友心中都會有的疑問。確實，開網店的是多，掙錢的有，不掙錢的也有，

無監督深度估計、運動估計的深度學習方法（二）

技術標籤：視覺里程計depth estimation深度學習自動駕駛計算機視覺在自監督深度估計中，一般輸入2張影象（若為視訊，則輸入鄰近的兩幀影象）frame1和frame2，模型先估計相機拍攝這2張影象是的姿態變化pose，然後

Admixture的監督分群（Supervised analysis）

目錄說明實戰說明 Admixture通過EM演算法一般用於指定亞群分類；或者在不知材料群體結構背景下，通過迭代交叉驗證獲得error值，取最小error對應的K值為推薦亞群數目。如果我們預先已知群體的型別（百分百確信），那

無監督學習-K-means演算法

1、什麼是無監督學習一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。

Tensorflow2.0 無監督學習AVE

技術標籤：TensorFlow Auto Encoder的升級版 import numpy as np import tensorflow as tf from PIL import Image

《原神攻略》1.3版胡桃無鍾離雙巖隊伍推薦

《原神》的胡桃可以搭配雙巖組合來構築隊伍，那麼應該怎麼選擇配隊角色，該如何輸出，請看下面由“將將ZOe”帶來的《原神》1.3版胡桃無鍾離雙巖隊伍推薦，希望對大家有用。

使用孤立森林進行無監督的離群檢測

一些理論

孤立森林如何工作

相關推薦