1. 程式人生 > >周志華 《機器學習》之 第九章(聚類)概念總結

周志華 《機器學習》之 第九章(聚類)概念總結

記得在讀研期間,去選修資料探勘與資料倉庫這門課,當時老師講的很多的一個知識點,那就是聚類分析,然後老師講了很多什麼關聯分析等等,很多都忘記了,當時也是聽得雲裡霧裡的。看完周老師在機器學習這本書中提到的聚類,大概理解了聚類能做什麼,能解決什麼樣的問題。周老師在資料介紹了多種聚類演算法。聚類可以說是一種無監督的學習,也就是說在訓練樣本中對應的標記資訊是沒有的,目標是通過對無標記訓練樣本的學習來揭示資料內在性質和規律,為進一步的資料分析提供基礎。周老師分如下章節進行介紹:

1、聚類任務

聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個“簇”。

2、效能度量

簇內相似度高,簇間相似度低。
外部指標:是將聚類結果與某個“參考模型”進行比較
內部指標:直接考察聚類結果而不利用任何參考模型。

3、距離計算

距離度量滿足的基本性質:
非負性、同一性、對稱性、直遞性
閔可夫斯基距離:

distmk=(u=1n|xiuxju|p)1p

如果p=2時,則表示歐氏距離
如果p=1時,則表示曼哈頓距離

有序屬性:
無序屬性:
閔可夫斯基可以用於無序屬性
對於無序屬性可以採用VDM

4、原型聚類

5、密度聚類

基於密度的聚類演算法主要的目標是尋找被低密度區域分離的高密度區域。與基於距離的聚類演算法不同的是,基於距離的聚類演算法的聚類結果是球狀的簇,而基於密度的聚類演算法可以發現任意形狀的聚類,這對於帶有噪音點的資料起著重要的作用。
http://blog.csdn.net/google19890102/article/details/37656733

6、層次聚類

層次聚類也叫連通聚類方法,有兩個基本方法:自頂而下和自底而上。自頂而將所有樣本看做是同一簇,然後進行分裂。自底而上將初所有樣本看做不同的簇,然後進行凝聚。這種聚類的中心思想是:離觀測點較近的點相比離觀測點較遠的點更可能是一類。
http://blog.csdn.net/king523103/article/details/49125049