1. 程式人生 > >聚類路線圖(演算法選擇)

聚類路線圖(演算法選擇)

一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。

    一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。

    連結:http://sklearn.apachecn.org/cn/0.19.0/modules/clustering.html#different-linkage-type-ward-complete-and-average-linkage

 

Method name(方法名稱)

Parameters(引數)

Scalability(可擴充套件性)

Usecase(使用場景)

Geometry (metric used)(幾何圖形(公制使用))

K-Means(K-均值)

number of clusters(聚類形成的簇的個數)

非常大的 n_samples, 中等的 n_clusters 使用 MiniBatch code(MiniBatch 程式碼)

通用, 均勻的 cluster size(簇大小), flat geometry(平面幾何), 不是太多的 clusters(簇)

Distances between points(點之間的距離)

Affinity propagation

damping(阻尼), sample preference(樣本偏好)

Not scalable with n_samples(n_samples 不可擴充套件)

Many clusters, uneven cluster size, non-flat geometry(許多簇,不均勻的簇大小,非平面幾何)

Graph distance (e.g. nearest-neighbor graph)(圖形距離(例如,最近鄰圖))

Mean-shift

bandwidth(頻寬)

Not scalable with n_samples (不可擴充套件的 n_samples)

Many clusters, uneven cluster size, non-flat geometry(許多簇,不均勻的簇大小,非平面幾何)

Distances between points(點之間的距離)

Spectral clustering

number of clusters(簇的個數)

中等的 n_samples, 小的 n_clusters

Few clusters, even cluster size, non-flat geometry(幾個簇,均勻的簇大小,非平面幾何)

Graph distance (e.g. nearest-neighbor graph)(圖形距離(例如最近鄰圖))

Ward hierarchical clustering

number of clusters(簇的個數)

大的 n_samples 和 n_clusters

Many clusters, possibly connectivity constraints(很多的簇,可能連線限制)

Distances between points(點之間的距離)

Agglomerative clustering

number of clusters(簇的個數), linkage type(連結型別), distance(距離)

大的 n_samples 和 n_clusters

Many clusters, possibly connectivity constraints, non Euclidean distances(很多簇,可能連線限制,非歐幾里得距離)

Any pairwise distance(任意成對距離)

DBSCAN

neighborhood size(neighborhood 的大小)

非常大的 n_samples, 中等的 n_clusters

Non-flat geometry, uneven cluster sizes(非平面幾何,不均勻的簇大小)

Distances between nearest points(最近點之間的距離)

Gaussian mixtures(高斯混合)

many(很多)

Not scalable(不可擴充套件)

Flat geometry, good for density estimation(平面幾何,適用於密度估計)

Mahalanobis distances to centers(Mahalanobis 與中心的距離)

Birch

branching factor(分支因子), threshold(閾值), optional global clusterer(可選全域性簇).

大的 n_clusters 和 n_samples

Large dataset, outlier removal, data reduction.(大資料集,異常值去除,資料簡化)

Euclidean distance between points(點之間的歐式距離)