機器學習實戰DBSCN聚類

阿新 • • 發佈：2018-11-17

# !/usr/bin/python
# -*- coding:utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib.colors
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris=load_iris()
y=iris.target
data=iris.data[:,2:]

def expand(a, b):
    d = (b - a) * 0.1
    return a-d, b+d


if __name__ == "__main__":
    N = 500
    centers = [[1, 2], [-1, -1], [1, -1], [-1, 1]]

    data, y = ds.make_blobs(N, n_features=2, centers=centers, cluster_std=[0.5, 0.25, 0.7, 0.5], random_state=0)
    print(data.shape)
    data = StandardScaler().fit_transform(data)
    # 資料1的引數：(epsilon, min_sample)
    params = ((0.2, 5), (0.2, 10), (0.2, 15), (0.3, 5), (0.3, 10), (0.3, 15))

    # 資料2
    # t = np.arange(0, 2*np.pi, 0.1)
    # data1 = np.vstack((np.cos(t), np.sin(t))).T
    # data2 = np.vstack((2*np.cos(t), 2*np.sin(t))).T
    # data3 = np.vstack((3*np.cos(t), 3*np.sin(t))).T
    # data = np.vstack((data1, data2, data3))
    # # # 資料2的引數：(epsilon, min_sample)
    # params = ((0.5, 3), (0.5, 5), (0.5, 10), (1., 3), (1., 10), (1., 20))

    matplotlib.rcParams['font.sans-serif'] = ['SimHei']
    matplotlib.rcParams['axes.unicode_minus'] = False

    plt.figure(figsize=(10,8), facecolor='w')
    plt.suptitle('DBSCAN聚類', fontsize=12)

    for i in range(6):
        eps, min_samples = params[i]
        model = DBSCAN(eps=eps, min_samples=min_samples)
        model.fit(data)
        y_hat = model.labels_

        core_indices = np.zeros_like(y_hat, dtype=bool)
        core_indices[model.core_sample_indices_] = True

        y_unique = np.unique(y_hat)
        print(np.zeros_like)
        print(y_unique)
        n_clusters = y_unique.size - (1 if -1 in y_hat else 0)
        print(y_unique, '聚類簇的個數為：', n_clusters)

        # clrs = []
        # for c in np.linspace(16711680, 255, y_unique.size):
        #     clrs.append('#%06x' % c)
        plt.subplot(2, 3, i+1)
        clrs = plt.cm.Spectral(np.linspace(0, 0.8, y_unique.size))
        print(clrs)

        for k, clr in zip(y_unique, clrs):
        # for k in zip(y_unique):
            cur = (y_hat == k)
            if k == -1:
                plt.scatter(data[cur, 0], data[cur, 1], s=10, c='k')
                continue
            plt.scatter(data[cur, 0], data[cur, 1], s=15, c=clr, edgecolors='k')
            plt.scatter(data[cur & core_indices][:, 0], data[cur & core_indices][:, 1], s=30, c=clr, marker='o', edgecolors='k')
            # plt.scatter(data[cur, 0], data[cur, 1], s=15,  edgecolors='k')
            # plt.scatter(data[cur & core_indices][:, 0], data[cur & core_indices][:, 1], s=30, marker='o',
            #             edgecolors='k')
        x1_min, x2_min = np.min(data, axis=0)
        x1_max, x2_max = np.max(data, axis=0)
        x1_min, x1_max = expand(x1_min, x1_max)
        x2_min, x2_max = expand(x2_min, x2_max)
        plt.xlim((x1_min, x1_max))
        plt.ylim((x2_min, x2_max))
        plt.plot()
        plt.grid(b=True, ls=':', color='#606060')
        plt.title(r'$\epsilon$ = %.1f  m = %d，聚類數目：%d' % (eps, min_samples, n_clusters), fontsize=12)
    plt.tight_layout()
    plt.subplots_adjust(top=0.9)
    plt.show()

機器學習實戰DBSCN聚類

# !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors f

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

Python機器學習——Agglomerative層次聚類

條件分享圖片 n-2 mov unique ber and 兩個 its 層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。 ??其原理是：最初

[吳恩達機器學習筆記]13聚類K-means

沒有 rand 幫助聯系 method ima 運用重新 function 13.聚類覺得有用的話,歡迎一起討論相互學習~Follow Me 13.1無監督學習簡介從監督學習到無監督學習在一個典型的監督學習中，我們有一個有標簽的訓練集，我們的目標是找到能夠區分正

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

機器學習之DBSCAN聚類

機器學習之DBSCAN聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 18:50:57 2018 @author: muli """ import numpy as np from sklearn.datas

機器學習之kMeans聚類

機器學習之kMeans聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 16:23:36 2018 @author: muli """ from sklearn.datasets.samples_generat

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

機器學習 K-means 聚類演算法 C++

筆記: 尚未解決的問題 : 1. 只支援二維,而不支援三維或更高,需要模板元 2. 尚未實現如何刪除極端點, 即預處理 3. 尚未視覺化編譯環境 Ubuntu gcc 5.4 編譯選項 g++ -std=c++14 #include &l

【機器學習】Kmeans聚類

寫在篇前 Kmeans演算法是一種經典的聚類演算法，屬於無監督學習的範疇。所謂聚類，即指對於給定的一個樣本集，按照樣本之間的距離大小，將樣本集劃分為K個簇，且讓簇內的點儘量緊密的連在一起，而讓簇間的距離儘量的大。優點：原理簡單速度快對大資料集有比較

【機器學習】層次聚類

寫在篇前層次聚類（hierarchical clustering）是一種通用的聚類演算法之一，它通過自下而上合併或自上而下拆分來構建巢狀聚類。這種簇的層次結構表示為樹（或樹狀圖），樹的根匯聚所有樣本，樹的葉子是各個樣本。本篇部落格會簡述層次聚類的原理，重點

Stanford機器學習筆記-9. 聚類(Clustering)

9. Clustering Content 　　9. Clustering 　　　　9.1 Supervised Learning and Unsupervised Learning 　　　　9.2 K-means algorithm 　　　　9.3 Optimization objectiv

機器學習之層次聚類及程式碼示例

一、層次聚類層次聚類是無監督學習方法，可對給定的N個待聚類的樣本進行層次的分類，直到某種條件（類的個數、類間的距離超過某個閾值）滿足為止。 1、層次聚類的劃分對於層次聚類，可具體分為： a. 凝聚的（agglomerative）層次聚類：採用

機器學習中的聚類

1、聚類無監督通過對無標記訓練樣本的學習來找到這些資料的內在性質，使用最多的就是聚類。聚類思想：將資料劃分為幾個不相交的子集（也就是簇，cluster），每個簇潛在的對應某一個概念。聚類僅僅是生成cluster，但是簇的語義要由使用者自己解釋。聚類的作用：探索性方法，用來分析

機器學習筆記12-聚類

機器學習筆記12-聚類在“無監督學習”中，訓練樣本的標記資訊是未知的，目標是通過對無標記訓練樣本的學習來揭示資料的內在性質及規律。此類學習任務中研究最多的是聚類。此外，無監督學習還有密度估計、異常檢測等。常見的聚類包括原型聚類、密度聚類、層次聚類等。原型聚類此類演算法

機器學習sklearn19.0聚類演算法——Kmeans演算法

一、關於聚類及相似度、距離的知識點二、k-means演算法思想與流程三、sklearn中對於kmeans演算法的引數四、程式碼示例以及應用的知識點簡介（1）make_blobs：聚類資料生成器 sklearn.datasets.m

機器學習(4)--層次聚類(hierarchical clustering)基本原理及實現簡單圖片分類

關於層次聚類(hierarchical clustering)的基本步驟： 1、假設每個樣本為一類，計算每個類的距離，也就是相似度 2、把最近的兩個合為一新類，這樣類別數量就少了一個 3、重新新類與各個舊類(去了那兩個合併的類)之間的相似度； 4、迴圈重複2和3直到所有樣本

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

機器學習之層次聚類演算法

層次聚類（Hierarchical Clustering）是對給定資料集在不同層次進行劃分，形成樹形的聚類結構，直到滿足某種停止條件為止。資料集的劃分可採用自底向上或自頂向下的劃分策略。1、凝聚的層次聚類演算法AGNES AGNES（AGglom

機器學習-K均值聚類(python3程式碼實現)

K均值聚類哈爾濱工程大學-537 演算法原理： K均值是發現給定資料集的kk個簇的演算法。簇個數kk是使用者給定的，每一個簇通過其質心(centroid)，即簇中所有點的中心來描述。 K均值演算法的工作流程是：首先隨機確定kk個初始點作為質心。然後

機器學習實戰DBSCN聚類

相關推薦