機器學習—聚類5-3（DBSCAN演算法）

阿新 • • 發佈：2022-03-15

使用DBSCAN對環形資料做聚類

主要步驟流程：

1. 匯入包
2. 生成資料並可視化
3. 使用DBSCAN做聚類並可視化
- 3.1 引數組合1
- 3.2 引數組合2
- 3.3 引數組合3
- 3.4 引數組合4
4. 使用K-Means做聚類並可視化
5. 列印調整蘭德指數

1. 匯入包

In [2]:

# 匯入包
import numpy as np
import matplotlib.pyplot as plt

2. 生成資料並可視化

In [3]:

# 生成資料
from 
 sklearn.datasets import make_circles
X, y = make_circles(n_samples=750, factor=0.3, noise=0.1, random_state=1)

In [4]:

# 視覺化資料
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y)

Out[4]:

<matplotlib.collections.PathCollection at 0x1a6d5026b08>

In [5]:

X.shape

Out[5]:

(750, 2)

In [6]:

y.shape

Out[6]:

(750,)

In [7]:

Out[7]:

array([1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0,
       0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0,
       1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1,
       0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0,
       1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0,
       1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0,
       1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1,
       0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1,
       1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0,
       0, 0], dtype=int64)

3. 使用DBSCAN做聚類並可視化

3.1 引數組合1

In [8]:

# 使用DBSCAN做聚類
from sklearn.cluster import DBSCAN
y_dbscan_pred = DBSCAN(eps=0.05, min_samples=10).fit_predict(X)

In [9]:

# 視覺化DBSCAN聚類效果
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_dbscan_pred)

Out[9]:

<matplotlib.collections.PathCollection at 0x1a6d6603048>

3.2 引數組合2

In [10]:

# 使用DBSCAN做聚類
from sklearn.cluster import DBSCAN
y_dbscan_pred = DBSCAN(eps=0.15, min_samples=10).fit_predict(X)

In [11]:

# 視覺化DBSCAN聚類效果
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_dbscan_pred)

Out[11]:

<matplotlib.collections.PathCollection at 0x1a6d666a9c8>

3.3 引數組合3

In [12]:

# 使用DBSCAN做聚類
from sklearn.cluster import DBSCAN
y_dbscan_pred = DBSCAN(eps=0.3, min_samples=10).fit_predict(X)

In [13]:

# 視覺化DBSCAN聚類效果
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_dbscan_pred)

Out[13]:

<matplotlib.collections.PathCollection at 0x1a6d66d1108>

3.4 引數組合4

In [14]:

# 使用DBSCAN做聚類
from sklearn.cluster import DBSCAN
y_dbscan_pred = DBSCAN(eps=0.15, min_samples=50).fit_predict(X)

In [15]:

# 視覺化DBSCAN聚類效果
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_dbscan_pred)

Out[15]:

<matplotlib.collections.PathCollection at 0x1a6d6734388>

4. 使用K-Means做聚類並可視化

In [16]:

# 使用K-Means做聚類
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 2, init = 'k-means++', n_init=10, max_iter=300, random_state = 0)
kmeans.fit(X)
y_kmeans_pred = kmeans.predict(X)

In [17]:

# 視覺化K-means聚類效果
plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_kmeans_pred)

Out[17]:

<matplotlib.collections.PathCollection at 0x1a6dcbb6408>

5. 列印調整蘭德指數

In [18]:

# 使用DBSCAN做聚類（呼叫最優的引數組合）
from sklearn.cluster import DBSCAN
y_dbscan_pred = DBSCAN(eps=0.15, min_samples=10).fit_predict(X)

由於樣本資料有標籤，所以可以用調整蘭德指數衡量模型效能

In [19]:

# 打印出調整蘭德指數
from sklearn import metrics
print("DBSCAN的調整蘭德指數是：%0.3f" % metrics.adjusted_rand_score(y, y_dbscan_pred))
print("K-Means的調整蘭德指數是：%0.3f" % metrics.adjusted_rand_score(y, y_kmeans_pred))

DBSCAN的調整蘭德指數是：0.961
K-Means的調整蘭德指數是：-0.001

由打印出的蘭德係數可見，DBSCAN演算法的效果遠遠優於K-Means演算法。

機器學習—聚類5-3（DBSCAN演算法）

使用DBSCAN對環形資料做聚類主要步驟流程： 1. 匯入包 2. 生成資料並可視化 3. 使用DBSCAN做聚類並可視化

機器學習—聚類5-2（輪廓係數）

使用輪廓係數評估超市客戶分組效果主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 使用K-Means演算法得到不同K值對應的WCSS4. 使用K-Means演算法得到不同K值對應的輪廓係數

機器學習聚類問題

技術標籤：# 機器學習機器學習聚類一.概述 1.概念: "聚類"(Clustering)是指按某個標準把資料集分割成不同的類(稱為"簇"),使同1個簇內的資料大小盡可能相似,而不同簇中的資料物件儘可能不相

機器學習-聚類問題

聚類問題是無監督學習的問題，演算法的思想就是“物以類聚，人以群分”。聚類算

圖解機器學習 | 聚類演算法詳解

機器學習—迴歸與分類4-3（AdaBoost演算法）

使用AdaBoost預測黑色星期五花銷主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

OpenCV計算機視覺學習（12）——影象量化處理&影象取樣處理（K-Means聚類量化，區域性馬賽克處理）

如果需要處理的原圖及程式碼，請移步小編的GitHub地址　　傳送門：請點選我

最簡單的機器學習模型搭建——線性迴歸（基於Pytorch和Python 3.7）

技術標籤：神經網路網路深度學習python機器學習構建資料集這裡使用的是torch.rand()函式構建資料集建立一個

機器學習—分類3-1（KNN演算法）

基於KNN預測客戶是否購買汽車新車型主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

機器學習—迴歸2-5（LASSO迴歸）

使用LASSO迴歸根據多個因素預測醫療費用主要步驟流程： 1. 匯入包 2. 匯入資料集

機器學習—分類3-3（邏輯迴歸）

基於邏輯迴歸預測客戶是否購買汽車新車型主要步驟流程： 1. 匯入包 2. 匯入資料集

深入理解JVM（③）虛擬機器器的類載入器（雙親委派模型）

前言先解釋一下什麼是類載入器，通過一個類的全限定名來獲取描述該類的二進位制位元組流，在虛擬機器器中實現這個動作的程式碼被稱為“類載入器（Class Loader）”。

吳裕雄--天生自然ANDROID開發學習：2.5.3 Spinner(列表選項框)的基本使用

1.相關屬性 android:dropDownHorizontalOffset：設定列表框的水平偏移距離 android:dropDownVerticalOffset：設定列表框的水平豎直距離

應對機器學習中類不平衡的10種技巧

作者|GUEST BLOG 編譯|Flin 來源|analyticsvidhya 總覽熟悉類失衡瞭解處理不平衡類的各種技術，例如-

機器學習：單元線性迴歸（python簡單實現）

本篇文章主要記錄和講解使用python如何簡單實現單元線性迴歸演算法文章簡介

c語言學習3（線性篩）

1.線性篩尤拉計劃第7題 10001st prime Problem 7 By listing the first six prime numbers: 2, 3, 5, 7, 11, and 13, we can see that the 6th prime is 13.

springboot 整合 elasticsearch6.5.3（demo）

elasticsearch整合springboot的時候各種版本要對應，不然各種報錯很麻煩。 1.開發環境：

機器學習之正則化（Regularization）

1. The Problem of Overfitting 1 還是來看預測房價的這個例子，我們先對該資料做線性迴歸，也就是左邊第一張圖。

ElasticSearch7.3 學習之定製動態對映（dynamic mapping）

1、dynamic mapping ElasticSearch中有一個非常重要的特性——動態對映，即索引文件前不需要建立索引、型別等資訊，在索引的同時會自動完成索引、型別、對映的建立。

如何處理機器學習中類的不平衡問題

不平衡類使機器學習的“準確性”受到破壞。這在機器學習(特別是分類)中是一個非常普遍的問題，在每個類中都有一個不成比例的資料集。標準的準確性不再可靠地度量效能，這使得模型培訓更加棘手。在本教程中，我們將探

機器學習—聚類5-3（DBSCAN演算法）

主要步驟流程：

1. 匯入包

2. 生成資料並可視化

3. 使用DBSCAN做聚類並可視化

3.1 引數組合1

3.2 引數組合2

3.3 引數組合3

3.4 引數組合4

4. 使用K-Means做聚類並可視化

5. 列印調整蘭德指數

相關推薦