簡單易學的機器學習演算法——基於密度的聚類演算法DBSCAN

阿新 • • 發佈：2019-02-18

%% DBSCAN
clear all;
clc;

%% 匯入資料集
% data = load('testData.txt');
data = load('testData_2.txt');

% 定義引數Eps和MinPts
MinPts = 5;
Eps = epsilon(data, MinPts);

[m,n] = size(data);%得到資料的大小

x = [(1:m)' data];
[m,n] = size(x);%重新計算資料集的大小
types = zeros(1,m);%用於區分核心點1，邊界點0和噪音點-1
dealed = zeros(m,1);%用於判斷該點是否處理過,0表示未處理過
dis = calDistance(x(:,2:n));
number = 1;%用於標記類

%% 對每一個點進行處理
for i = 1:m
    %找到未處理的點
    if dealed(i) == 0
        xTemp = x(i,:);
        D = dis(i,:);%取得第i個點到其他所有點的距離
        ind = find(D<=Eps);%找到半徑Eps內的所有點
        
        %% 區分點的型別
        
        %邊界點
        if length(ind) > 1 && length(ind) < MinPts+1
            types(i) = 0;
            class(i) = 0;
        end
        %噪音點
        if length(ind) == 1
            types(i) = -1;
            class(i) = -1;
            dealed(i) = 1;
        end
        %核心點(此處是關鍵步驟)
        if length(ind) >= MinPts+1
            types(xTemp(1,1)) = 1;
            class(ind) = number;
            
            % 判斷核心點是否密度可達
            while ~isempty(ind)
                yTemp = x(ind(1),:);
                dealed(ind(1)) = 1;
                ind(1) = [];
                D = dis(yTemp(1,1),:);%找到與ind(1)之間的距離
                ind_1 = find(D<=Eps);
                
                if length(ind_1)>1%處理非噪音點
                    class(ind_1) = number;
                    if length(ind_1) >= MinPts+1
                        types(yTemp(1,1)) = 1;
                    else
                        types(yTemp(1,1)) = 0;
                    end
                    
                    for j=1:length(ind_1)
                       if dealed(ind_1(j)) == 0
                          dealed(ind_1(j)) = 1;
                          ind=[ind ind_1(j)];   
                          class(ind_1(j))=number;
                       end                    
                   end
                end
            end
            number = number + 1;
        end
    end
end

% 最後處理所有未分類的點為噪音點
ind_2 = find(class==0);
class(ind_2) = -1;
types(ind_2) = -1;

%% 畫出最終的聚類圖
hold on
for i = 1:m
    if class(i) == -1
        plot(data(i,1),data(i,2),'.r');
    elseif class(i) == 1
        if types(i) == 1
            plot(data(i,1),data(i,2),'+b');
        else
            plot(data(i,1),data(i,2),'.b');
        end
    elseif class(i) == 2
        if types(i) == 1
            plot(data(i,1),data(i,2),'+g');
        else
            plot(data(i,1),data(i,2),'.g');
        end
    elseif class(i) == 3
        if types(i) == 1
            plot(data(i,1),data(i,2),'+c');
        else
            plot(data(i,1),data(i,2),'.c');
        end
    else
        if types(i) == 1
            plot(data(i,1),data(i,2),'+k');
        else
            plot(data(i,1),data(i,2),'.k');
        end
    end
end
hold off

距離計算函式

%% 計算矩陣中點與點之間的距離
function [ dis ] = calDistance( x )
    [m,n] = size(x);
    dis = zeros(m,m);
    
    for i = 1:m
        for j = i:m
            %計算點i和點j之間的歐式距離
            tmp =0;
            for k = 1:n
                tmp = tmp+(x(i,k)-x(j,k)).^2;
            end
            dis(i,j) = sqrt(tmp);
            dis(j,i) = dis(i,j);
        end
    end
end

epsilon函式

function [Eps]=epsilon(x,k)

% Function: [Eps]=epsilon(x,k)
%
% Aim: 
% Analytical way of estimating neighborhood radius for DBSCAN
%
% Input: 
% x - data matrix (m,n); m-objects, n-variables
% k - number of objects in a neighborhood of an object
% (minimal number of objects considered as a cluster)



[m,n]=size(x);

Eps=((prod(max(x)-min(x))*k*gamma(.5*n+1))/(m*sqrt(pi.^n))).^(1/n);

最終的結果

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

機器學習實戰———k均值聚類演算法

問題：關於第九章list（）新增的問題 fltLine = list(map(float,curLine)) fltLine = map(float,curLine) 二者的區別在於加list（）輸出為數 [1.658985, 4.285136] [-3.453

【機器學習】K-means聚類演算法初探

資料聚類是對於靜態資料分析的一門技術，在許多領域內都被廣泛地應用，包括機器學習、資料探勘、模式識別、影象分析、資訊檢索以及生物資訊等。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，這樣讓在同一個子集中的成員物件都有相似的一些屬性，常見的包括在座標系中

機器學習實戰-62:層次聚類演算法(Hierarchical Clustering)

機器學習實戰-62:層次聚類演算法機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：K均值聚類(K-Means)、層次聚類(Hie

python機器學習：K-means聚類演算法

為了更好構建關於機器學習的整體架構，多快好省的學好機器學習，計劃提綱挈領的總結一遍，從演算法的執行流程、虛擬碼流程構建、python程式碼實現、呼叫sklearn機器學習庫相關函式實現功能等方面論述，以便以後自己複習和備查，下面先從k-means演算法開始。一

用Python開始機器學習（10：聚類演算法之K均值）

我們之前接觸的所有機器學習演算法都有一個共同特點，那就是分類器會接受2個向量：一個是訓練樣本的特徵向量X，一個是樣本實際所屬的型別向量Y。由於訓練資料必須指定其真實分類結果，因此這種機器學習統稱為有監督學習。然而有時候，我們只有訓練樣本的特徵，而對其型別一無所知。這種情況，我

python機器學習案例系列教程——聚類演算法總結

全棧工程師開發手冊（作者：欒鵬）一、什麼是聚類？聚類（Clustering）：聚類是一個人們日常生活的常見行為，即所謂“物以類聚，人以群分”，核心的思想也就是聚類。人們總是不斷地改進下意識中的聚類模式來學習如何區分各個事物和人。

【機器學習】【層次聚類演算法-1】HCA(Hierarchical Clustering Alg)的原理講解 + 示例展示數學求解過程

層次聚類(Hierarchical Clustering)是聚類演算法的一種，通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中，不同類別的原始資料點是樹的最低層，樹的頂層是一個聚類的根節點。建立聚類樹有自下而上合併和自上而下分裂兩種方法，本篇文章介紹合併方法。層次聚類的合併演算法層次聚

python_機器學習（2）聚類演算法

K-means聚類演算法 k-means演算法以k為引數，把n個物件分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。其處理過程如下： 1.隨機選擇k個點作為初始的聚類中心； 2.對於剩下的點，根據其與聚類中心的距離，將其歸入最近的簇 3.對每個簇，計算所有點的均

機器學習之K-means聚類演算法

k均值演算法的計算過程非常直觀： 1、從D中隨機取k個元素，作為k個簇的各自的中心。 2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。 3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

機器學習——詳解經典聚類演算法Kmeans

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第12篇文章，我們一起來看下Kmeans聚類演算法。在上一篇文章當中我們討論了KNN演算法，KNN演算法非常形象，通過距離公式找到最近的K個鄰居，通過鄰居的結果來推測當前的結果。今天我們要來看的演算法同樣非常直觀，

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSe

【無監督學習】3：Density Peaks聚類演算法實現（區域性密度聚類演算法）

前言：密度峰聚類演算法和DBSCAN聚類演算法有相似的地方，兩者都是基於密度的聚類方式。自己是在學習無監督學習過程中，無意間見到介紹這種聚類演算法的文章，感覺密度峰聚類演算法方法很新奇，操作也很簡答，於是自己也動手寫一下了。 –—-—-—-—-—-—-—-—-

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

寫在前面的話在聚類問題中，我們給定一個訓練集，演算法根據某種策略將訓練集分成若干類。在監督式學習中，訓練集中每一個數據都有一個標籤，但是在分類問題中沒有，所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於：監督式學習有正確答

機器學習：Python實現聚類算法(三)之總結

.fig ask class ted ssi 缺點處理 blob ron 考慮到學習知識的順序及效率問題，所以後續的幾種聚類方法不再詳細講解原理，也不再寫python實現的源代碼，只介紹下算法的基本思路，使大家對每種算法有個直觀的印象，從而可以更好的理解函數中

軟件——機器學習與Python，聚類，K——means

4.0 etc sichuan readlines 文件夾 8.4 k-means 數據 -m K-means是一種聚類算法：這裏運用k-means進行31個城市的分類城市的數據保存在city.txt文件中，內容如下： BJ,2959.19,730.79,749.41

Python機器學習(1)：KMeans聚類

ima mea arr src ont array imp rom open Python進行KMeans聚類是比較簡單的，首先需要import numpy，從sklearn.cluster中import KMeans模塊： import numpy as np f

簡單易學的機器學習演算法——基於密度的聚類演算法DBSCAN

相關推薦