聚類路線圖（演算法選擇）

阿新 • • 發佈：2018-11-21

一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。

連結：http://sklearn.apachecn.org/cn/0.19.0/modules/clustering.html#different-linkage-type-ward-complete-and-average-linkage

Method name（方法名稱）	Parameters（引數）	Scalability（可擴充套件性）	Usecase（使用場景）	Geometry (metric used)（幾何圖形（公制使用））
K-Means（K-均值）	number of clusters（聚類形成的簇的個數）	非常大的 n_samples, 中等的 n_clusters 使用 MiniBatch code（MiniBatch 程式碼）	通用, 均勻的 cluster size（簇大小）, flat geometry（平面幾何）, 不是太多的 clusters（簇）	Distances between points（點之間的距離）
Affinity propagation	damping（阻尼）, sample preference（樣本偏好）	Not scalable with n_samples（n_samples 不可擴充套件）	Many clusters, uneven cluster size, non-flat geometry（許多簇，不均勻的簇大小，非平面幾何）	Graph distance (e.g. nearest-neighbor graph)（圖形距離（例如，最近鄰圖））
Mean-shift	bandwidth（頻寬）	Not scalable with n_samples （不可擴充套件的 n_samples）	Many clusters, uneven cluster size, non-flat geometry（許多簇，不均勻的簇大小，非平面幾何）	Distances between points（點之間的距離）
Spectral clustering	number of clusters（簇的個數）	中等的 n_samples, 小的 n_clusters	Few clusters, even cluster size, non-flat geometry（幾個簇，均勻的簇大小，非平面幾何）	Graph distance (e.g. nearest-neighbor graph)（圖形距離（例如最近鄰圖））
Ward hierarchical clustering	number of clusters（簇的個數）	大的 n_samples 和 n_clusters	Many clusters, possibly connectivity constraints（很多的簇，可能連線限制）	Distances between points（點之間的距離）
Agglomerative clustering	number of clusters（簇的個數）, linkage type（連結型別）, distance（距離）	大的 n_samples 和 n_clusters	Many clusters, possibly connectivity constraints, non Euclidean distances（很多簇，可能連線限制，非歐幾里得距離）	Any pairwise distance（任意成對距離）
DBSCAN	neighborhood size（neighborhood 的大小）	非常大的 n_samples, 中等的 n_clusters	Non-flat geometry, uneven cluster sizes（非平面幾何，不均勻的簇大小）	Distances between nearest points（最近點之間的距離）
Gaussian mixtures（高斯混合）	many（很多）	Not scalable（不可擴充套件）	Flat geometry, good for density estimation（平面幾何，適用於密度估計）	Mahalanobis distances to centers（Mahalanobis 與中心的距離）
Birch	branching factor（分支因子）, threshold（閾值）, optional global clusterer（可選全域性簇）.	大的 n_clusters 和 n_samples	Large dataset, outlier removal, data reduction.（大資料集，異常值去除，資料簡化）	Euclidean distance between points（點之間的歐式距離）

聚類路線圖（演算法選擇）

一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。連結：http://skl

聚類演算法（四）、基於高斯混合分佈 GMM 的聚類方法（補充閱讀）

基於高斯混合分佈的聚類，我看了很多資料，，寫的千篇一律，一律到讓人看不明白。直到認真看了幾遍周志華寫的，每看一遍，都對 GMM 聚類有一個進一步的認識。所以，如果你想了解這一塊，別看亂七八糟的部落格了，直接去看周志華的《機器學習》 P206頁。下面是我額外看的

python資料分析：聚類分析（cluster analysis）

何為聚類分析聚類分析或聚類是對一組物件進行分組的任務，使得同一組（稱為聚類）中的物件（在某種意義上）與其他組（聚類）中的物件更相似（在某種意義上）。它是探索性資料探勘的主要任務，也是統計資料分析的常用技術，用於許多領域，包括機器學習，模式識別，影象分析，資訊檢索，生物資訊學，資料

無監督分類：聚類分析（K均值）

1.K均值聚類 K均值聚類是最基礎的一種聚類方法。K均值聚類，就是把看起來最集中、最不分散的簇標籤分配到輸入訓練樣本{xi}中。具體而言就是通過下式計算簇y的分散狀況：在這裡，∑i,yi=y表示

層次聚類方法（Hierarchical Clustering）

層次聚類方法（Hierarchical Clustering）層次聚類就是通過對資料集按照某種方法進行層次分解，直到滿足某種條件為止。按照分類原理的不同，可以分為凝聚和分裂兩種方法。層次聚類方法對給定的資料集進行層次的分解，直到某種條件滿足為止。具體又可分為凝聚的，

sklearn實戰：對文件進行聚類分析（KMeans演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np from time import time from sklearn.datasets import load_fi

資料探勘演算法之聚類分析（二）canopy演算法

canopy是聚類演算法的一種實現它是一種快速，簡單，但是不太準確的聚類演算法 canopy通過兩個人為確定的閾值t1，t2來對資料進行計算，可以達到將一堆混亂的資料分類成有一定規則的n個數據堆由於canopy演算法本身的目的只是將混亂的資料劃分成大概的幾個類別，所以它

機器學習--K-means演算法（聚類，無監督學習）

一、基本思想聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x

聚類分析（三） K中心點演算法（k-mediods）

K 中心點演算法（ K-medoids ）前面介紹了 k-means 演算法，並列舉了該演算法的缺點。而 K 中心點演算法（ K-medoids ）正好能解決 k-means 演算法中的 “噪聲”敏感這個問題。如何解決的呢？首先，我們得介紹下 k-means 演算法為什麼會對“噪聲”敏感。還記

模式識別經典演算法——Kmeans影象聚類分割（以最短的matlab程式實現）

kmeans之於模式識別，如同“hello world”之於C、之於任何一門高階語言。演算法的規格（specification）在聚類問題（一般非監督問題）中，給定訓練樣本X={x(1),x(2),…,x(N)}，每個x(i)∈Rd。kmeans

聚類及相關演算法二（原型聚類、密度聚類、層次聚類）

原型聚類描述：對原型進行初始化，然後對原型進行迭代更新求解。 1.k均值演算法給定樣本集D={x1,x2,...,xm}，D={x1,x2,...,xm}，“k-均值”(k-means)演算法針對聚類所得簇劃分C={C1,C2,C3,...,Ck}

數據分析第四篇：聚類分析（劃分）

think trace stat pid 函數返回 around 構建之前得出聚類是把一個數據集劃分成多個子集的過程，每一個子集稱作一個簇（Cluster），聚類使得簇內的對象具有很高的相似性，但與其他簇中的對象很不相似，由聚類分析產生的簇的集合稱作一個聚類。在相同的

聚類分析（劃分方法，層次方法、密度方法） ---機器學習

本節學習聚類分析，聚類屬於無監督學習，其中聚類的方法有很多種常見的有K-means、層次聚類（Hierarchical clustering）、譜聚類（Spectral Clustering）等，在這裡，上來不會直接介紹這些理論，需要一些基礎知識鋪墊，和前面一樣，一上來就直接介紹聚類演算法，顯得

聚類分析（三）層次聚類及matlab程式

一、層次聚類介紹 1.1 簡介層次聚類，主要是對給定的待聚類的資料集進行層次化分解。主要分為兩大類： 1.從下到上的凝聚聚類 2.從上到下的分裂聚類其他演算法大部分是對樣本之間距離度量或者類間凝聚/分裂依據進行改進。 1.2從下到上的凝聚演算法從下到上的凝聚演算法能夠讓人們較為直觀的觀

聚類分析（二）k-means及matlab程式

1.介紹 k-means是一種常見的基於劃分的聚類演算法。劃分方法的基本思想是：給定一個有N個元組或者記錄的資料集，將資料集依據樣本之間的距離進行迭代分裂，劃分為K個簇，其中每個簇至少包含一條實驗資料。 2.k-means原理分析 2.1工作原理（1）首先，k-means方法從資料集中隨機

聚類程式（彙總）k-means、層次聚類、神經網路聚類、高斯混合聚類等

利用不同方法對資料進行聚類，參考至：周志華機器學習 %% 利用不同方法對債券樣本進行聚類 %說明 %分別採用不同的方法，對資料進行聚類 %kmens可以選擇的pdist/clustering距離 % 'sqeuclidean' 'cityblock

聚類分析（一）介紹

一、聚類演算法 1.1引言聚類分析，在英文中是Cluster analysis，是機器學習中無監督學習的典型代表。無監督學習沒有訓練過程，給定一些樣本資料，讓機器學習演算法直接對這些資料進行分析，得到資料的某些知識。而無監督學習的另外一類典型演算法是資料降維，它將一個高維向量變換到低維空

基於R的聚類分析（DBSCAN，基於密度的聚類分析）

DBSCAN聚類分析（基於R語言）在上一講中，主要是給大家介紹了，K-means聚類，層次聚類這兩種聚類方法是最為典型的兩種聚類方法。K-means聚類基本原理是這樣的，在n個樣本點中，首先提前設定要聚類幾類，比如說要聚成三類，那麼在n個樣本點中先隨機選擇三

層次聚類--凝聚（自底向上）和分裂（自頂向下）

底向上合併成一棵樹。層次聚類涉及到巢狀聚類，巢狀聚類是指一個聚類中R1包含了另一個R2，那這就是R2巢狀在R1中，或者說是R1嵌套了R2。具體說怎麼算巢狀呢？聚類R1={{x1,x2},{x3},{x4,x5}巢狀在聚類R2={{x1,x2,x3},{x4,x5}}中，但並不巢狀在聚類R3={{x1,x4},

聚類總結（上）——劃分聚類

概述聚類指根據一定的準則，把一份事物按照這個準則歸納成互不重合的幾份。機器學習中，聚類指按照一個標準，這個標準通常是相似性，把樣本分成幾份，使得相似程度高的聚在一起，相似程度低的互相分開。聚類的方法很多，有基於分層的聚類，基於劃分的聚類，基於密度的聚類。

聚類路線圖（演算法選擇）

相關推薦