聚類路線圖(演算法選擇)
一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。
一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。
Method name(方法名稱) |
Parameters(引數) |
Scalability(可擴充套件性) |
Usecase(使用場景) |
Geometry (metric used)(幾何圖形(公制使用)) |
number of clusters(聚類形成的簇的個數) |
非常大的 n_samples, 中等的 n_clusters 使用 MiniBatch code(MiniBatch 程式碼) |
通用, 均勻的 cluster size(簇大小), flat geometry(平面幾何), 不是太多的 clusters(簇) |
Distances between points(點之間的距離) |
|
damping(阻尼), sample preference(樣本偏好) |
Not scalable with n_samples(n_samples 不可擴充套件) |
Many clusters, uneven cluster size, non-flat geometry(許多簇,不均勻的簇大小,非平面幾何) |
Graph distance (e.g. nearest-neighbor graph)(圖形距離(例如,最近鄰圖)) |
|
bandwidth(頻寬) |
Not scalable with n_samples (不可擴充套件的 n_samples) |
Many clusters, uneven cluster size, non-flat geometry(許多簇,不均勻的簇大小,非平面幾何) |
Distances between points(點之間的距離) |
|
number of clusters(簇的個數) |
中等的 n_samples, 小的 n_clusters |
Few clusters, even cluster size, non-flat geometry(幾個簇,均勻的簇大小,非平面幾何) |
Graph distance (e.g. nearest-neighbor graph)(圖形距離(例如最近鄰圖)) |
|
number of clusters(簇的個數) |
大的 n_samples 和 n_clusters |
Many clusters, possibly connectivity constraints(很多的簇,可能連線限制) |
Distances between points(點之間的距離) |
|
number of clusters(簇的個數), linkage type(連結型別), distance(距離) |
大的 n_samples 和 n_clusters |
Many clusters, possibly connectivity constraints, non Euclidean distances(很多簇,可能連線限制,非歐幾里得距離) |
Any pairwise distance(任意成對距離) |
|
neighborhood size(neighborhood 的大小) |
非常大的 n_samples, 中等的 n_clusters |
Non-flat geometry, uneven cluster sizes(非平面幾何,不均勻的簇大小) |
Distances between nearest points(最近點之間的距離) |
|
many(很多) |
Not scalable(不可擴充套件) |
Flat geometry, good for density estimation(平面幾何,適用於密度估計) |
Mahalanobis distances to centers(Mahalanobis 與中心的距離) |
|
branching factor(分支因子), threshold(閾值), optional global clusterer(可選全域性簇). |
大的 n_clusters 和 n_samples |
Large dataset, outlier removal, data reduction.(大資料集,異常值去除,資料簡化) |
Euclidean distance between points(點之間的歐式距離) |