基於密度的聚類演算法(DBSCAN)的java實現

阿新 • • 發佈：2019-01-04

k-means和EM演算法適合發現凸型的聚類（大概就是圓形，橢圓形比較規則的類），而對於非凸型的聚類，這兩種方法就很難找到準確的聚類了。比如如下圖：

可能來自不同類的點反而比來自相同類的點還要靠的更近。

太多的原理和演算法介紹，大家可以找到很多相關資料。（推薦《Data Mining and Analysis： FundamentalConcepts and Algorithms》）。下面的程式碼是對基於密度聚類演算法的一種實現。希望能夠幫助想要學習了理解這種演算法的同學。

import java.util.ArrayList;
import java.util.List;
/**
 * 
 * @author aturbo
 * 基於密度的聚類演算法
 */
public class MyDBSCAN {
    private static final double[][] points =  {
                                               {3.0, 8.04},
                                               {4.0, 7.95},
                                               {4.4, 8.58},
                                               {3.6, 8.81},
                                               {5.0, 8.33},
                                               {6.0, 6.96},
                                               {17.0, 4.24},
                                               {18.0, 4.26},
                                               {16.0, 3.84},
                                               {17.0, 4.82},
                                               {15.0, 5.68},
                                               {17.0, 5.68},
                                               {11.0, 10.68},
                                               {13.0, 9.68},
                                               {11.8, 10.0},
                                               {12.0, 11.18},
                                               {8.0, 12.0},
                                               {9.2, 9.68},
                                               {8.8, 11.2},
                                               {10.0,11.4},
                                               {7.0, 9.68},
                                               {6.1, 10.68},
                                               {5.70, 1.68},
                                               {5.0, 2.68},
                                               {12.0, 0.68}
    };
    private static int minpts = 6;
    private static double radius = 1.3;
    private static List<List<double[]>> clusters;
    private static List<double[]> cores;
    
    /**
     * 歐氏距離
     * @param point1
     * @param point2
     * @return
     */
	private static double countEurDistance(double[] point1,double[] point2){
		double eurDistance = 0.0;
		for(int i=0;i<point1.length;i++){
			eurDistance += (point1[i]-point2[i])*(point1[i]-point2[i]);
		}
		return Math.sqrt(eurDistance);
	}
	/**
	 * find the core points
	 * @param points
	 * @param minpts
	 * @param radius
	 * @return
	 */
    private static List<double[]> findCores(double[][] points,int minpts,double radius){
       List<double[]> cores = new ArrayList<double[]>();
       for(int i = 0; i < points.length;i++){
    	   int pts = 0;
    	   for(int j = 0; j < points.length;j++){
    		   for(int k = 0; k < points[i].length;k++){
    			   if(countEurDistance(points[i], points[j])<radius){
    				   pts++;
    			   }
    		   }
    	   }
    	   if(pts>=minpts){
    		   cores.add(points[i]);
    	   }
       }
       return cores;
    }
    /**
     * put the core point to cluster and get the densityconnect
     */
    private static void putCoreToCluster(){
        clusters = new ArrayList<List<double[]>>();
        int clusterNum = 0;
    	for(int i = 0;i<cores.size();i++){
    		clusters.add(new ArrayList<double[]>());
    	  	clusters.get(clusterNum).add(cores.get(i));
    	  	densityConnected(points, cores.get(i), clusterNum);
    	  	clusterNum++;
    	}
    }
    /**
     * 
     * @param points
     * @param core
     * @param clusterNum
     */
    private static void densityConnected(double[][] points,double[] core,int clusterNum){
    	boolean isputToCluster;//是否已經歸為某個類
    	boolean isneighbour = false;//是不是core的“鄰居”
    	cores.remove(core);//對某個core點處理後就從core集中去掉
    	for(int i = 0; i < points.length;i++){
    		isneighbour = false;
    		isputToCluster = false;
    		for(List<double[]> cluster:clusters){
    			if(cluster.contains(points[i])){//如果已經歸為某個類
    				isputToCluster = true;
    				break;
    			}
    		}
    		if(isputToCluster)continue;//已在聚類中，跳過，不處理
    		if(countEurDistance(points[i], core)<radius){//是目前加入的core點的“鄰居”嗎？，ture的話，就和這個core加入一個類
    			clusters.get(clusterNum).add(points[i]);
    			isneighbour = true;
    		}
    		if(isneighbour){//如果是鄰居，才會接下來對鄰居進行densityConnected處理，否則，結束這個core點的處理
    		  if(cores.contains(points[i])){
    			  cores.remove(points[i]);
    			  densityConnected(points, points[i], clusterNum);
    		  }
    		}
    	}
    	
    }
	public static void main(String[] args){
		cores = findCores(points, minpts, radius);
		System.out.println("點的個數："+points.length);
		System.out.println(cores.size()+" core points:");
		for(double[] core:cores){
			System.out.print("[");
			for(int i = 0;i< core.length;i++){
				System.out.print(core[i]);
				if(i!=(core.length-1))
					System.out.print(",");
			}
			System.out.print("]");
			System.out.println();
		}
		putCoreToCluster();			
		int i = 0;
		for(List<double[]> cluster:clusters){
			System.out.println("cluster "+ i++ +":");
			for(double[] point:cluster){
				System.out.println("["+point[0]+","+point[1]+"]");
			}			
		}
		int flag = 0;
		for(int j = 0;j<points.length;j++){
			flag = 0;
			for(List<double[]> cluster:clusters){
				if(cluster.contains(points[j])){
					flag = 1;
					break;
				}
			}
			if(flag==0)System.out.println("noise point:"+"["+points[j][0]+","+points[j][1]+"]");
		}
	}
}

具體演算法流程：

參考文獻：

《Data Mining and Analysis： FundamentalConcepts and Algorithms》

基於密度的聚類演算法(DBSCAN)的java實現

k-means和EM演算法適合發現凸型的聚類（大概就是圓形，橢圓形比較規則的類），而對於非凸型的聚類，這兩種方法就很難找到準確的聚類了。比如如下圖：可能來自不同類的點反而比來自相同類的點還要靠的更近。太多的原理和演算法介紹，大家可

簡單易學的機器學習演算法——基於密度的聚類演算法DBSCAN

%% DBSCAN clear all; clc; %% 匯入資料集 % data = load('testData.txt'); data = load('testData_2.txt'); % 定義引數Eps和MinPts MinPts = 5; Eps = epsilon(data, MinPts)

DBSCAN詳解（密度聚類演算法開篇）

DBSCAN詳解第二十二次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇作為密度聚類演算法族的開篇，主要是介紹其中最流行的一種演算法——DBSCAN，其他演算法在後續會陸續更新，連結附在該篇文章的結尾處。

基於密度聚類DBSCAN

/* DBSCAN Algorithm 15S103182 Ethan */ #include <iostream> #include <sstream> #include <fstream> #include <vector>

【無監督學習】3：Density Peaks聚類演算法實現（區域性密度聚類演算法）

前言：密度峰聚類演算法和DBSCAN聚類演算法有相似的地方，兩者都是基於密度的聚類方式。自己是在學習無監督學習過程中，無意間見到介紹這種聚類演算法的文章，感覺密度峰聚類演算法方法很新奇，操作也很簡答，於是自己也動手寫一下了。 –—-—-—-—-—-—-—-—-

DBSCAN密度聚類演算法

　　　　DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法)是一種很典型的密度聚類演算法，和K-Means，BIRCH這些一般只適用於凸樣本集的聚類相比，DBSCAN既可以適用於凸樣本集，也可以適用

【看論文】之《西紅柿果實目標識別方法研究-基於模糊聚類演算法_王富春》

論文資訊題目：西紅柿果實目標識別方法研究-基於模糊聚類演算法論文作者：王富春等作者單位：柳州職業技術學院期刊：農機化研究提交時間：2014-10-20 摘要為識別成熟的西紅柿目標，提出了一種“模糊C-均值聚類演算法（Fuzzy Clustering Mea

KMeans聚類演算法分析以及實現

KMeans KMeans是一種無監督學習聚類方法, 目的是發現數據中資料物件之間的關係，將資料進行分組，組內的相似性越大，組間的差別越大，則聚類效果越好。無監督學習,也就是沒有對應的標籤,只有資料記錄.通過KMeans聚類,可以將資料劃分成一個簇,進而發現數據之間的關係.

機器學習-*-MeanShift聚類演算法及程式碼實現

MeanShift 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距

【原創】演算法分享（5）聚類演算法DBSCAN

簡介 DBSCAN：Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter

層次聚類演算法原理及實現

聚類聚類是對點集進行考察並按照某種距離測度將他們聚成多個“簇”的過程。聚類的目標是使得同一簇內的點之間的距離較短，而不同簇中點之間的距離較大。一、聚類演算法介紹層次法聚類和點分配法聚類。 1.1 點、空間和距離點集是一種適合於聚類的資料集，每個點都是某空間下的物件。一般意義上，空間

k-means(k均值聚類)演算法介紹及實現(c++)

基本介紹： k-means 演算法接受輸入量 k ；然後將n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得一個“中心物件”（引力中心）來進行計算的。工作過程：　　k

譜聚類演算法Matlab快速實現

%Ncut譜聚類完整函式定義（儲存為.m檔案）： function C = SpectralClustering(data,k,a) %data是資料點矩陣 K是聚類個數 a代表高斯核函式的引數 %UNTITLED Summary of this functio

機器學習學習筆記第二十章聚類演算法-DBSCAN

聚類演算法-DBSCAN Density-Based Spatial Clustering of Applications with Noise 基本概念：核心物件：若某個點的密度達到演算法設定的閾

R聚類演算法-DBSCAN演算法

DBSCAN演算法（Density-Based Spatial Clustering of Application with Noise）密度聚類演算法基於密度的聚類演算法，K-means和層次聚

密度聚類（DBSCAN）

DBSCAN 基本概念與演算法原理有資料集D={x1,x2,...,xm}，引數param={ϵ,MinPts} 有如下基本概念： ϵ-鄰域：資料集D中除xi外的其他樣本與xi距離小於ϵ的樣本集合。記作Nϵ(xj)={xj∈D|dist(xi,

K均值聚類演算法的MATLAB實現

單來說，K-均值聚類就是在給定了一組樣本(x1, x2, ...xn) （xi, i = 1, 2, ... n均是向量) 之後，假設要將其聚為 m(<n) 類，可以按照如下的步驟實現: Step 1: 從 (x1, x2, ...xn) 中隨機選擇

【OpenCV學習筆記 020】K-Means聚類演算法介紹及實現

一、K-Means演算法介紹在資料探勘中，K-Means演算法是一種cluster analysis的演算法，其主要是來計算資料聚集的演算法，主要通過不斷地取離種子點最近均值的演算法。問題 K-Means演算法主要解決的問題如下圖所示。我們可以看到，在圖的左邊有一些點，

聚類——譜聚類演算法以及Python實現

譜聚類(spectral cluster)可以視為一種改進的Kmeans的聚類演算法。常用來進行影象分割。缺點是需要指定簇的個數，難以構建合適的相似度矩陣。優點是簡單易實現。相比Kmeans而言，處理高維資料更合適。核心思想構建樣本點的相似度矩陣(圖

K-means聚類演算法及其MATLAB實現

clear all;close all;clc; % 第一組資料 mu1=[0 0 ]; %均值 S1=[.1 0 ;0 .1]; %協方差 data1=mvnrnd(mu1,S1,100); %產生高斯分佈資料 %第二組資料 mu2=[1.25 1.25 ]; S2=[.1 0 ;0 .1]; da

基於密度的聚類演算法(DBSCAN)的java實現

相關推薦