R聚類演算法-DBSCAN演算法

阿新 • • 發佈：2019-01-04

DBSCAN演算法（Density-Based Spatial Clustering of Application
with Noise）密度聚類演算法
基於密度的聚類演算法，K-means和層次聚類對於球狀的簇聚類效果很好，DBSCAN可以用於更多複雜形狀簇的聚類。

這裡寫圖片描述

R中實現DBSCAN演算法的API
“fpc”包
install.packages(“fpc”)
dbscan(data,eps,MinPts)

data 樣本資料 eps
領域的大小，使用圓的半徑表示
Minpts 領域內，點的個數的閾值

理解概念：
這裡寫圖片描述
密度（Density）
空間中任意一點的密度是以該點為圓心，以EPS為半徑的圓區域內包含的點數目
N的密度為1，B、C的密度為2，A的密度為4

鄰域（Neighborhood）
空間中任意一點的鄰域是以該點為圓心、以EPS為半徑的圓區域內包含的點集合

核心點（Core Points）
空間中某一點的密度，如果大於某一給定閾值MinPts,則稱該點為核心點
設MinPts為3，則核心點為A

邊界點（Border Points）
空間中某一點的密度>1並且小於MinPts
圖中的邊界點為B、C

噪聲點（Noise Points）
資料集中不屬於核心點，也不屬於邊界點的點，密度值為1
圖中噪聲點為N

演算法實現：

data <- read.csv('data.csv')

plot(data[, 1 
], data[, 2])

eps <- 0.2;
MinPts <- 5;

d <- as.matrix(dist(data))

#將所有點標記為核心點、邊界點或噪聲點
ps <- data.frame(index=c(NA), density=c(NA), type=c(NA))
for(i in 1:nrow(data)) {
  #i <- 1;
  index <- which(d[i, ]<eps)
  #密度,空間中任意一點的密度是以該點為圓心、以 Eps 為半徑的圓區域內包含的點數
  density <- length(index);
  if 
(density>MinPts) {
    #核心點（Core Points）
    #空間中某一點的密度，如果大於某一給定閾值MinPts，則稱該為核心點
    ps[i, ] <- c(i, density, 1)
  } else if(density>1) {
    #邊界點（Border Points）
    #空間中某一點的密度，如果小於某一給定閾值MinPts，則稱該為邊界點
    ps[i, ] <- c(i, density, 2)
  } else {
    #噪聲點（Noise Points）
    #資料集中不屬於核心點，也不屬於邊界點的點，也就是密度值為1的點
    ps[i, ] <- c(i, density, 0)
  }
}

#把噪聲點過濾掉，因為噪聲點無法聚類，它們獨自一類
corePoints <- data[which(ps$type!=0), ]
coreDists <- as.matrix(dist(corePoints))

#首先，把每個點的領域都作為一類
#鄰域（Neighborhood）
#空間中任意一點的鄰域是以該點為圓心、以 Eps 為半徑的圓區域內包含的點集合
cluster <- list();
for(i in 1:nrow(coreDists)) {
  cluster[[i]] <- names(which(coreDists[i, ]<eps));
}

#然後，將有交集的領域，都合併為新的領域
for(i in 1:length(cluster)) {
  for(j in 1:length(cluster)) {
    if(any(cluster[[j]] %in% cluster[[i]]) && i!=j) {
      if(ps[cluster[[i]][1], ]$type==1 && ps[cluster[[i]][2], ]$type==1) {
        cluster[[i]] <- unique(append(cluster[[i]], cluster[[j]]))
        cluster[[j]] <- list();
      }
    }
  }
}

#最後，找出獨立（也就是沒有交集）的領域，就是我們最後的聚類的結果了
result <- list();
for(i in 1:length(cluster)) {
  if(length(cluster[[i]])>0) {
    result[[length(result)+1]] <- cluster[[i]]
  }
}

#找出每個點所在領域的序號，作為他們最後聚類的結果標記
for(i in 1:length(result)) {
  for(j in result[[i]]) {
    data[j, 3] <- i
  }
}

plot(data[, 1], data[, 2], col=data[,3])

如何使用”fpc”包中的dbscan函式進行密度聚類。
很簡單！

#install.packages('fpc')

library('fpc')

data <- read.csv('data.csv')
plot(data[, 1], data[, 2])

# 用fpc包中的dbscan函式進行密度聚類
model2 <- dbscan(data, eps=0.2, MinPts=5)
plot(data[, 1], data[, 2], col=model2$cluster)

這裡寫圖片描述

R聚類演算法-DBSCAN演算法

DBSCAN演算法（Density-Based Spatial Clustering of Application with Noise）密度聚類演算法基於密度的聚類演算法，K-means和層次聚

聚類分析常用演算法原理：KMeans,DBSCAN, 層次聚類

聚類分析是非監督學習的很重要的領域。所謂非監督學習，就是資料是沒有類別標記的，演算法要從對原始資料的探索中提取出一定的規律。而聚類分析就是試圖將資料集中的樣本劃分為若干個不相交的子集，每個子集稱為一個“簇”。下面是sklearn中對各種聚類演算法的比較。

聚類演算法——DBSCAN演算法原理及公式

聚類的定義聚類就是對大量未知標註的資料集，按資料的內在相似性將資料集劃分為多個類別，使類別內的資料相似度較大而類別間的資料相似度較小。聚類演算法是無監督的演算法。常見的相似度計算方法閔可夫斯基距離Minkowski/歐式距離在上述的計算中，當p=1時，則是計算絕對值距離，通常叫做曼哈頓距離，當p

第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 x def initcenter(x, k):#初始聚類中心陣列 return x[:k] kc = initcenter

第八次作業-----#聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

1. 用python實現K均值演算法 K-means是一個反覆迭代的過程，演算法分為四個步驟：（x,k,y) 1）選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心； def initcenter(x, k): kc 2）對於樣本中的資料物件，根據它們與這些聚類中心的歐氏距離，按距

聚類路線圖（演算法選擇）

一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。一般實驗選擇sklearn包。需要從兩個方面看。資料量和樣本分佈。建議看下面兩個圖和連結進行粗選。連結：http://skl

聚類之meanshift演算法

在K-Means 演算法中，最終的聚類效果受初始的聚類中心的影響，K-Means++演算法的提出，為選擇較好的初始聚類中心提供了依據（選擇的的初始聚類中心儘可能的遠）但是演算法中，聚類的類別個數K仍需事先確定，對於類別個數事先未知的資料集，K-Means和K-Means++將很難對其精確求

層次聚類之AGNES演算法和DIANA演算法

轉載自：http://blog.csdn.net/hwwn2009/article/details/38331577 層次聚類的基本概念層次聚類方法是古老而且常用的聚類方法。層次聚類方法又有兩種產生層次聚類的基本方法。凝聚的：該方法是自底向上的方法，初始每個物

聚類k-means演算法詳解

前言俗話說：“物以類聚，人以群分”，在自然科學和社會科學中，存在著大量的分類問題。所謂類，通俗地說，就是指相似元素的集合。而對於分類問題，我們通常不會提供x與y這樣的對映關係，對於這種用機器自動找出其中規律並進行分類的問題，我們稱為聚類。聚類在實際的

資料學習(5)·K-means 聚類和PCA演算法

作者的課堂筆記[email protected] Preview K-means 聚類主成分分析（Principal Component Analysis）無監督學習和有監督學習類似，但是資料沒有標籤。給定輸入資料，

聚類與分類演算法

聚類是未知結果會有多少類的，即可能聚成10個類也可能聚成100個類，只是根據某些相似性條件把資料聚合在一起，當然也有讓使用者自定義類數目的聚類演算法，但這個數目也不好定的。分類是已知一共有多少類，並明確知道該類的特點，然後把未知的按一定規則分到某一個類中。聚類的資料集要比較多，這樣才有東西聚成一堆一堆的。分

聚類——標籤傳播演算法以及Python實現

標籤傳播演算法(label propagation)是典型的半監督聚類演算法。半監督是指訓練資料集中小部分樣本點已知標籤，大部分樣本點未知標籤。核心思想相似性較大的樣本點間應該具有相同的標籤，將已知標籤通過相似性矩陣傳播到未知的標籤。演算法簡

聚類及相關演算法二（原型聚類、密度聚類、層次聚類）

原型聚類描述：對原型進行初始化，然後對原型進行迭代更新求解。 1.k均值演算法給定樣本集D={x1,x2,...,xm}，D={x1,x2,...,xm}，“k-均值”(k-means)演算法針對聚類所得簇劃分C={C1,C2,C3,...,Ck}

聚類之K均值聚類和EM演算法

這篇部落格整理K均值聚類的內容，包括： 1、K均值聚類的原理； 2、初始類中心的選擇和類別數K的確定； 3、K均值聚類和EM演算法、高斯混合模型的關係。一、K均值聚類的原理 K均值聚類（K-means）是一種基於中心的聚類演算法，通過迭代，將樣本分到K個類中，使得每個樣本與其所屬類

無監督學習之聚類2——DBSCAN

odi alt times 指標 pyplot shape otl 明顯 score 根據學生月上網時間數據運用DBSCAN算法計算： #coding=utf-8 import numpy as np import sklearn.cluster as skc from

R: 聚類分析

.net 註意們的每次應用領域 str 就是比較記錄判別與聚類的比較：聚類分析和判別分析有相似的作用，都是起到分類的作用。判別分析是已知分類然後總結出判別規則，是一種有指導的學習；聚類分析則是有了一批樣本，不知道它們的分類，甚至連分成幾類也不知道，希望用某

機器學習--聚類系列--DBSCAN算法

都是 img 子集 sed 聚類數據集噪聲屬於算法 DBSCAN算法　　基本概念:(Density-Based Spatial Clustering of Applications with Noise) 　　　　核心對象:若某個點的密度達到算法設定的閾值則其為核

R聚類分析航空公司資料（篩選出不同的客戶類別）

效果圖如下圖片是將3萬四千條航空公司資料用k-means演算法分成五個類，並通過ggplot2包作圖作出來的特徵屬性。我們將通過不同的屬性值，分析出高價值使用者，低價值使用者，主力使用者，一般使用者，潛力使用者可以分析得F,M,C自然是越高越好，C主要

三、降維——PCA, 3d視覺化以及R聚類

匯入資料資料使用的是iris資料包： data(iris) iris$Species <- factor(iris$Species, levels = c("Versicolor", "virginica", "setosa")) 可以使用head(iri

密度聚類（DBSCAN）

DBSCAN 基本概念與演算法原理有資料集D={x1,x2,...,xm}，引數param={ϵ,MinPts} 有如下基本概念： ϵ-鄰域：資料集D中除xi外的其他樣本與xi距離小於ϵ的樣本集合。記作Nϵ(xj)={xj∈D|dist(xi,

R聚類演算法-DBSCAN演算法

相關推薦