1. 程式人生 > >【機器學習】---密度聚類從初識到應用

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定 聚類 空間 mar

一.前述

密度聚類是一種能降噪的算法。

二.相關概念

先看些抽象的概念(官方定義)

1.技術分享圖片:對象O的是與O為中心,技術分享圖片為半徑的空間,參數技術分享圖片,是用戶指定每個對象的領域半徑值。

2.MinPts(領域密度閥值):對象的技術分享圖片的對象數量。

3.核心對象:如果對象O技術分享圖片的對象數量至少包含MinPts個對象,則該對象是核心對象。

4.直接密度可達:如果對象p在核心對象q的技術分享圖片內,則p是從q直接密度可達的。

5.密度可達:在DBSCAN中,p是從q(核心對象)密度可達的,如果存在對象鏈,使得技術分享圖片,技術分享圖片技術分享圖片從關於技術分享圖片和MinPts直接密度可達的,即技術分享圖片技術分享圖片

技術分享圖片內,則技術分享圖片技術分享圖片密度可達。

6.密度相連:如果存在對象技術分享圖片,使得對象技術分享圖片都是從q關於和MinPts密度可達的,則稱技術分享圖片

是關於技術分享圖片和MinPts密度相連的。

PS:是不是很抽象 ,所以官方定義永遠是官方定義確實理解不了。然後再看些非官方定義,其實就大概明白了。

先上圖:

技術分享圖片

解釋下:這裏有幾個關鍵的概念。

領域其實就是某一個半徑內,假設半徑為5,我們先看P點以半徑為5畫的圓中包含3個點,而q點以半徑為5畫7個點 7>5,所以q就叫做核心對象。q不是核心對象。理解就是這麽簡單,再看看什麽叫密度可達,見下圖:

技術分享圖片

0點以半徑為5畫圓與p點以半徑為5畫圓有交集,即O點以半徑為5的領域內以P為中心店半徑為5的領域內的點,則O密度可達P,O也密度可達q(在邊界交點也算)。

從o點能密度可達p,也能密度可達q,則p,q叫密度相連。

再比如:

技術分享圖片

q密度可達p1,p1密度可達p,則q密度可達p(間接的也是密度可達)!!!!

這裏需要兩個參數註意下:r半徑,m閾值,即以r為半徑內所包含的點,只有大於m閾值的點才能叫核心對象。

以上理解了這些概念,但跟聚類有什麽相連,實際上簇就是密度相連的最大的集合。即一個簇就是最大的密度相連的集合。

如果一個點不是核心對象,也就意味著不能密度可達,所以就是噪聲點。(通俗理解就是一個點都不能畫圓,怎麽會有密度可達呢?)

比如下圖:

技術分享圖片

就是噪聲點。

PS:總結下規律:

給定的m不夠簇就會變多,比如下圖:m分別是5,3,2

技術分享圖片

解釋:當是5的時候,圈紅的邊緣點不是核心對象,所以不能畫圓,所以不會密度可達。當是2的時候,半徑內的值大於閾值所以是核心對象,那麽這堆數據有可能密度相連,形成一個簇。這也就是簇變多的原因。

r半徑太大就會聚類到一起:如下圖

技術分享圖片

所以Finally總結:要大一起大,要小一起小,參數這是最合適的。比如2,6圖是合適的,4個簇。

未完待續,持續更新中。。。。。。。。。。。。

【機器學習】---密度聚類從初識到應用