聚類(下)
1.原型聚類
原型聚類亦稱“基於原型的聚類”(prototype-based clustering),此類演算法假設聚類結構能通過一組原型刻畫,在現實聚類任務中常用。通常,演算法先對原型進行初始化,然後對原型進行迭代更新求解。
1)K-Means演算法 (距離平方和最小聚類法)
給定樣本集D={x1,x2,…,xm},“k均值”演算法針對聚類所得簇劃分C={C1,C2,…,Ck}最小化均方誤差:
直觀來看,上式在一定程度上刻畫了簇內樣本均值向量的緊密程度,E值越小則簇內相似度越高。
2)學習向量量化
3)高斯混合聚類
2.密度聚類
以空間中的一點為中心,單位體積內點的個數稱為該點的密度
也就是說,對給定類中的每個資料點,在一個給定的區域內必須至少包含某個數目的點。這樣,密度聚類方法就可以用來過濾“噪聲”異常點資料,發現任意形狀的簇。
在密度聚類演算法中,有基於高密度連線區域的DBSCAN(Density-based Spatial Clustedng of Application with Noise)演算法、通過物件排序識別聚類結構的OPTICS(Ordering Points To Identify the Clustering Structure)演算法和基於密度分佈函式聚類的DENCLUE
1)DBSCAN演算法
DBSCAN是一種著名的密度聚類演算法,它基於一組“鄰域”(neighborhood)引數
()來刻畫樣本分佈的緊密程度。給定資料集D={x1,x2,…,xm},定義下面幾個概念:
一個基於密度的簇是基於密度可達性的最大的密度相連物件的集合。不包含在任何簇中的物件被認為是“噪聲”。
3.層次聚類
層次聚類(hierachical clustering)試圖在不同層次上對資料進行劃分,從而形成樹形聚類結構。
分類:
聚合策略(agglomerative)(自底向上):一開始將每個物件作為單獨的一組,然後根據同類相近,異類相異
拆分策略(divisive)(自頂向下):一開始將所有的物件置於一類,在迭代的每一步中,一個類不斷地分為更小的類,直到每個物件在單獨的一個類中,或達到一個終止條件。
特點:
類的個數不需事先定好
需確定距離矩陣
運算量要大,適用於處理小樣本資料
按類與類之間的距離分為:
1)最短距離法(single linkage)
2)最長距離法(complete linkage)
可能被極大值扭曲,刪除這些值之後再聚類
3)中間距離法(median method)
4)重心法(centroid method)
類的重心之間的距離
對異常值不敏感,結果更穩定
5)類平均法(between-group linkage)
類間距離的統一性:
聚類引數表