各種聚類演算法的對比

阿新 • • 發佈：2019-01-03

聚類的目標是使同一類物件的相似度儘可能地大；不同類物件之間的相似度儘可能地小。目前聚類的方法很多，根據基本思想的不同，大致可以將聚類演算法分為五大類：層次聚類演算法、分割聚類演算法、基於約束的聚類演算法、機器學習中的聚類演算法和用於高維度的聚類演算法。摘自資料探勘中的聚類分析研究綜述這篇論文。

1、層次聚類演算法

1.1聚合聚類

1.1.1相似度依據距離不同：Single-Link:最近距離、Complete-Link：最遠距離、Average-Link：平均距離

1.1.2最具代表性演算法

1）CURE演算法

特點：固定數目有代表性的點共同代表類

優點：識別形狀複雜，大小不一的聚類，過濾孤立點

2）ROCK演算法

特點：對CURE演算法的改進

優點：同上，並適用於類別屬性的資料

3）CHAMELEON演算法

特點：利用了動態建模技術

1.2分解聚類

1.3優缺點

優點：適用於任意形狀和任意屬性的資料集；靈活控制不同層次的聚類粒度，強聚類能力

缺點：大大延長了演算法的執行時間，不能回溯處理

2、分割聚類演算法

2.1基於密度的聚類

2.1.1特點

將密度足夠大的相鄰區域連線，能有效處理異常資料，主要用於對空間資料的聚類

2.1.2典型演算法

1）DBSCAN：不斷生長足夠高密度的區域

2）DENCLUE：根據資料點在屬性空間中的密度進行聚類，密度和網格與處理的結合

3）OPTICS、DBCLASD、CURD：均針對資料在空間中呈現的不同密度分不對DBSCAN作了改進

2.2基於網格的聚類

2.2.1特點

利用屬性空間的多維網格資料結構，將空間劃分為有限數目的單元以構成網格結構；

1）優點：處理時間與資料物件的數目無關，與資料的輸入順序無關，可以處理任意型別的資料

2）缺點：處理時間與每維空間所劃分的單元數相關，一定程度上降低了聚類的質量和準確性

2.2.2典型演算法

1）STING：基於網格多解析度，將空間劃分為方形單元，對應不同解析度

2）STING+：改進STING，用於處理動態進化的空間資料

3）ＣＬＩＱＵＥ：結合網格和密度聚類的思想，能處理大規模高維度資料

4）WaveCluster：以訊號處理思想為基礎

2.3基於圖論的聚類

2.3.1特點

轉換為組合優化問題，並利用圖論和相關啟發式演算法來解決，構造資料集的最小生成數，再逐步刪除最長邊

1）優點：不需要進行相似度的計算

2.3.2兩個主要的應用形式

1）基於超圖的劃分

2）基於光譜的圖劃分

2.4基於平方誤差的迭代重分配聚類

2.4.1思想

逐步對聚類結果進行優化、不斷將目標資料集向各個聚類中心進行重新分配以獲最優解

2.4.2具體演算法

1）概率聚類演算法

期望最大化、能夠處理異構資料、能夠處理具有複雜結構的記錄、能夠連續處理成批的資料、具有線上處理能力、產生的聚類結果易於解釋

2）最近鄰聚類演算法——共享最近鄰演算法SNN

特點：結合基於密度方法和ROCK思想，保留K最近鄰簡化相似矩陣和個數

不足：時間複雜度提高到了O(N^2)

3）K-Medioids演算法

特點：用類中的某個點來代表該聚類

優點：能處理任意型別的屬性；對異常資料不敏感

4）K-Means演算法

1》特點：聚類中心用各類別中所有資料的平均值表示

2》原始K-Means演算法的缺陷：結果好壞依賴於對初始聚類中心的選擇、容易陷入區域性最優解、對K值的選擇沒有準則可依循、對異常資料較為敏感、只能處理數值屬性的資料、聚類結構可能不平衡

3》K-Means的變體

Bradley和Fayyad等：降低對中心的依賴，能適用於大規模資料集

Dhillon等：調整迭代過程中重新計算中心方法，提高效能

Zhang等：權值軟分配調整迭代優化過程

Sarafis：將遺傳演算法應用於目標函式構建中

Berkh in等：應用擴充套件到了分散式聚類

還有：採用圖論的劃分思想，平衡聚類結果，將原始演算法中的目標函式對應於一個各向同性的高斯混合模型

5）優缺點

優點：應用最為廣泛；收斂速度快；能擴充套件以用於大規模的資料集

缺點：傾向於識別凸形分佈、大小相近、密度相近的聚類；中心選擇和噪聲聚類對結果影響大

3、基於約束的聚類演算法

3.1約束

對個體物件的約束、對聚類引數的約束；均來自相關領域的經驗知識

3.2重要應用

對存在障礙資料的二維空間按資料進行聚類,如COD(Clustering with Obstructed Distance)：用兩點之間的障礙距離取代了一般的歐式距離

3.3不足

通常只能處理特定應用領域中的特定需求

4、用於高維資料的聚類演算法

4.1困難來源因素

1）無關屬性的出現使資料失去了聚類的趨勢

2)區分界限變得模糊

4.2解決方法

1)對原始資料降維

2)子空間聚類

CACTUS：對原始空間在二維平面上的投影

CLIQUE：結合基於密度和網格的聚類思想，借鑑Apriori演算法

3)聯合聚類技術

特點：對資料點和屬性同時進行聚類

文字：基於雙向劃分圖及其最小分割的代數學方法

4.3不足：不可避免地帶來了原始資料資訊的損失和聚類準確性的降低

5、機器學習中的聚類演算法

5.1兩個方法

1)人工神經網路方法

自組織對映：向量化方法，遞增逐一處理；對映至二維平面，實現視覺化

基於投影自適應諧振理論的人工神經網路聚類

2)基於進化理論的方法

缺陷：依賴於一些經驗引數的選取，並具有較高的計算複雜度

模擬退火：微擾因子；遺傳演算法（選擇、交叉、變異）

5.2優缺點

優點：利用相應的啟發式演算法獲得較高質量的聚類結果

缺點：計算複雜度較高，結果依賴於對某些經驗引數的選擇

下面附上個人對聚類演算法的選擇及比較的理解：

各種聚類演算法的對比

聚類的目標是使同一類物件的相似度儘可能地大；不同類物件之間的相似度儘可能地小。目前聚類的方法很多，根據基本思想的不同，大致可以將聚類演算法分為五大類：層次聚類演算法、分割聚類演算法、基於約束的聚類演算法、機器學習中的聚類演算法和用於高維度的聚類演算法。摘自資料探勘中的聚

各種聚類演算法的系統介紹和比較

最近專案用到聚類演算法，將其系統的總結一下。一、簡要介紹 1、聚類概念聚類就是按照某個特定標準(如距離準則)把一個數據集分割成不同的類或簇，使得同一個簇內的資料物件的相似性儘可能大，同時不在同一個簇中的資料物件的差異性也儘可能地大。即聚類後同一類的資料儘可能

python資料分析與挖掘實戰—聚類演算法對比

#-*-coding:utf-8-*- import numpy as np import matplotlib.pyplot as plt from sklearn import datasets

K-means和PAM聚類演算法Python實現及對比

K-means（K均值劃分）聚類：簡單的說，一般流程如下：先隨機選取k個點，將每個點分配給它們，得到最初的k個分類；在每個分類中計算均值，將點重新分配，劃歸到最近的中心點；重複上述步驟直到點的劃歸不再改變。下圖是K-means方法的示意。 PAM

K-means聚類演算法的三種改進(K-means++,ISODATA,Kernel K-means)介紹與對比

一、概述在本篇文章中將對四種聚類演算法(K-means,K-means++,ISODATA和Kernel K-means)進行詳細介紹，並利用資料集來真實地反映這四種演算法之間的區別。首先需要明確的是上述四種演算法都屬於"硬聚類”演算法，即資料集中每一個樣本都是被100%確定得

Kmeans、Kmeans++、Birch和KNN四種聚類演算法對二維座標點的聚類分析對比實驗

0 寫在前面（資料集和原始碼）本文章涉及到的資料集合所有程式碼均上傳在此處：https://download.csdn.net/download/zhouzhuo_csuft/10494273；點選此處直接開啟連結；一共有四個程式碼檔案，分別是Kmeans、Kmeans++、

sklearn聚類演算法評估方法之各種係數

python中的分群質量部分內容來源於：機器學習評價指標大彙總個人比較偏好的三個指標有：Calinski-Harabaz Index（未知真實index的模型評估）、Homogeneity, completeness and V-measure（聚類數量情況）、輪廓係

【神經網路】自編碼聚類演算法--DEC (Deep Embedded Clustering)

1.演算法描述最近在做AutoEncoder的一些探索，看到2016年的一篇論文，雖然不是最新的，但是思路和方法值得學習。論文原文連結 http://proceedings.mlr.press/v48/xieb16.pdf，論文有感於t-SNE演算法的t-

聚類演算法之DBSCAN演算法之二：高維資料剪枝應用NQ-DBSCAN

一、經典DBSCAN的不足 1.由於“維度災難”問題，應用高維資料效果不佳 2.執行時間在尋找每個點的最近鄰和密度計算，複雜度是O(n2)。當d>=3時，由於BCP等數學問題出現，時間複雜度會急劇上升到Ω（n的四分之三次方）。二、DBSCAN在高維資料的改進目前的研究有

聚類演算法之DBSCAN演算法之一：經典DBSCAN

DBSCAN是基於密度空間的聚類演算法，與KMeans演算法不同，它不需要確定聚類的數量，而是基於資料推測聚類的數目，它能夠針對任意形狀產生聚類。 1.epsilon-neighborhood epsoiln-neighborhood(簡稱e-nbhd）可理解為密度空間，表示半徑為e

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

聚類演算法（1）

一聚類演算法簡介 1.聚類和分類的區別聚類 - 利用演算法將相似或者相近的樣本聚成一簇，這些樣本都是無標籤的，是一種無監督學習演算法。分類 - 首先需要從有標籤樣本學習出打標籤邏輯，再利用學習出的邏輯對無標籤樣本進行分類，是一種有監督學習演算法。 2.聚類的使用聚類演

機器學習筆記之（7）——聚類演算法

對於監督學習，訓練資料都是事先已知預測結果的，即訓練資料中已提供了資料的類標。無監督學習則是在事先不知道正確結果（即無類標資訊或預期輸出值）的情況下，發現數據本身所蘊含的結構等資訊。無監督學習通過對無標記訓練樣本的學習來尋找這些資料的內在性質。聚類的目標是發現數據中自然形成的分組，使得每

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

聚類演算法-K-means

K-means演算法****** 步驟： 1.從訓練資料中隨機選取k個初始點，作為k個初始簇的中心點 2.計算每個點到中心點的歐式距離，將其歸併到距離最近的簇中，直至所有點劃分完成 3.計算每個簇新的中心點 4.如果相對於原來中心點沒有變化或者變化數值小於給定閾值，則演算

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

DBSCAN聚類演算法難嗎？我們來看看吧~

往期經典回顧從零開始學Python【29】--K均值聚類（實戰部分）從零開始學Python【28】--K均值聚類（理論部分）從零開始學Python【27】--Logistic迴歸（實戰部分）從零開始學Python【26】--Logistic迴歸（理論部分）從零開始學Py

聚類演算法(4)--Hierarchical clustering層次聚類

目錄一、層次聚類 1、層次聚類的原理及分類 2、層次聚類的流程 3、層次聚類的優缺點二、python實現 1、sklearn實現 2、scipy實現樹狀圖分類判斷一、層次聚類 1、層次聚類的原理及分類 1）層次法（Hierar

資料探勘聚類演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

各種聚類演算法的對比

1、層次聚類演算法

1.1聚合聚類

1.1.1相似度依據距離不同：Single-Link:最近距離、Complete-Link：最遠距離、Average-Link：平均距離

1.1.2最具代表性演算法

1.2分解聚類

1.3優缺點

2.1基於密度的聚類

2.1.1特點

2.1.2典型演算法

2.2基於網格的聚類

2.2.1特點

2.2.2典型演算法

2.3基於圖論的聚類

2.3.1特點

2.3.2兩個主要的應用形式

2.4基於平方誤差的迭代重分配聚類

2.4.1思想

2.4.2具體演算法

3、基於約束的聚類演算法

3.1約束

3.2重要應用

3.3不足

4、用於高維資料的聚類演算法

4.1困難來源因素

4.2解決方法

5、機器學習中的聚類演算法

5.1兩個方法

5.2優缺點

相關推薦