機器學習--聚類系列--DBSCAN算法

阿新 • • 發佈：2018-07-21

都是 img 子集 sed 聚類數據集噪聲屬於算法

DBSCAN算法

　　基本概念:(Density-Based Spatial Clustering of Applications with Noise)

　　　　核心對象:若某個點的密度達到算法設定的閾值則其為核心點。(即 r 鄰域內點的數量不小於 minPts)
　　　　ε-鄰域的距離閾值:設定的半徑r
　　　　直接密度可達：若某點p在點q的 r 鄰域內,且q是核心點則p-q直接密度可達。
　　　　密度可達：若有一個點的序列q0、q1、...qk,對任意qi-qi-1是直接密度可達的,則稱從q0到qk密度可達,這實際上是直接密度可達的“傳播”。就像傳銷一樣，發展下線。

　　　　密度相連：若從某核心點p出發,點q和點k都是密度可達的,則稱點q和點k是密度相連的。

　　　　邊界點：屬於某一個類的非核心點,不能發展下線了
　　　　噪聲點：不屬於任何一個類簇的點,從任何一個核心點出發都是密度不可達的，也叫離群點。

　　技術分享圖片

　　工作流程

　　給定：

　　參數D：輸入數據集
　　參數ε：指定半徑
　　MinPts：密度閾值（比如5）

　　　　技術分享圖片

　　參數選擇:
　　　　半徑ε,可以根據K距離來設定：找突變點
　　　　K距離：給定數據集P={p(i); i=0,1,...n},計算點P(i)到集合D的子集S中所有點之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。
　　　　MinPts:：k-距離中k的值,一般取的小一些,多次嘗試

　　優勢:

不需要指定簇個數
可以發現任意形狀的簇
擅長找到離群點(檢測任務)
兩個參數就夠了

　　劣勢:

高維數據有些困難(可以做降維)
參數難以選擇(參數對結果的影響非常大)
Sklearn中效率很慢(數據削減策略)

　　　　　　技術分享圖片

機器學習--聚類系列--DBSCAN算法

都是 img 子集 sed 聚類數據集噪聲屬於算法 DBSCAN算法　　基本概念:(Density-Based Spatial Clustering of Applications with Noise) 　　　　核心對象:若某個點的密度達到算法設定的閾值則其為核

機器學習--聚類系列--DBSCAN算法

機器學習--聚類系列--DBSCAN算法

機器學習--聚類系列--K-means算法

機器學習--聚類系列--層次聚類

機器學習聚類演算法Kmeans與DBSCAN

Spark機器學習(6)：決策樹算法

Spark機器學習(11)：協同過濾算法

【機器學習】對梯度下降算法的進一步理解

機器學習入門之決策樹算法

機器學習實戰精讀--------K-近鄰算法

Python機器學習--聚類

機器學習實戰精讀--------FP-growth算法

機器學習實戰(一)k-近鄰算法

機器學習之Logistic 回歸算法

機器學習（利用adaboost元算法提高分類性能）

機器學習_貝葉斯算法

機器學習-支持向量機算法實現與實例程序

機器學習之利用KNN近鄰算法預測數據

機器學習中常見的優化算法

聚類--K均值算法

第八次作業：聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

機器學習--聚類系列--DBSCAN算法

相關推薦