1. 程式人生 > >常用分類聚類演算法

常用分類聚類演算法

什麼是分類

分類任務就是明確物件屬於哪個預定義的目標類。其中預定義的目標類是離散時為分類,連續時為迴歸。

有哪些分類方法

常用的分類演算法有決策樹,基於規則的分類演算法,神經網路,支援向量機和樸素貝葉斯分類法等。(參考常用分類演算法總結

  • 決策樹

  • 基於規則的分類演算法

  • 樸素貝葉斯 雜貨鋪

  • 最近鄰分類器

  • 貝葉斯信念網路(BBN)

  • 人工神經網路

  • 支援向量機的特徵(SVM)

什麼是聚類

聚類就是按照某個特定標準(如距離準則,即資料點之間的距離)把一個數據集分割成不同的類或簇,使得同一個簇內的資料物件的相似性儘可能大,同時不在同一個簇中的資料物件的差異性也儘可能地大。

有哪些聚類

  • 基於劃分聚類演算法(partition clustering)

k-means: 是一種典型的劃分聚類演算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該演算法只能處理數值型資料 
k-modes: K-Means演算法的擴充套件,採用簡單匹配方法來度量分型別資料的相似度 
k-prototypes: 結合了K-Means和K-Modes兩種演算法,能夠處理混合型資料 
k-medoids: 在迭代過程中選擇簇中的某點作為聚點,PAM是典型的k-medoids演算法 
CLARA: CLARA演算法在PAM的基礎上採用了抽樣技術,能夠處理大規模資料 
CLARANS: CLARANS演算法融合了PAM和CLARA兩者的優點,是第一個用於空間資料庫的聚類演算法 
Focused CLARAN: 採用了空間索引技術提高了CLARANS演算法的效率 
PCM: 模糊集合理論引入聚類分析中並提出了PCM模糊聚類演算法

  • 基於層次聚類演算法

CURE: 採用抽樣技術先對資料集D隨機抽取樣本,再採用分割槽技術對樣本進行分割槽,然後對每個分割槽區域性聚類,最後對區域性聚類進行全域性聚類 
ROCK: 也採用了隨機抽樣技術,該演算法在計算兩個物件的相似度時,同時考慮了周圍物件的影響 
CHEMALOEN(變色龍演算法): 首先由資料集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分演算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最後用一個凝聚的層次聚類演算法反覆合併子簇,找到真正的結果簇 
SBAC: SBAC演算法則在計算物件間相似度時,考慮了屬性特徵對於體現物件本質的重要程度,對於更能體現物件本質的屬性賦予較高的權值 
BIRCH: BIRCH演算法利用樹結構對資料集進行處理,葉結點儲存一個聚類,用中心和半徑表示,順序處理每一個物件,並把它劃分到距離最近的結點,該演算法也可以作為其他聚類演算法的預處理過程 
BUBBLE: BUBBLE演算法則把BIRCH演算法的中心和半徑概念推廣到普通的距離空間 
BUBBLE-FM: BUBBLE-FM演算法通過減少距離的計算次數,提高了BUBBLE演算法的效率

  • 基於密度聚類演算法

DBSCAN: DBSCAN演算法是一種典型的基於密度的聚類演算法,該演算法採用空間索引技術來搜尋物件的鄰域,引入了“核心物件”和“密度可達”等概念,從核心物件出發,把所有密度可達的物件組成一個簇 
GDBSCAN: 演算法通過泛化DBSCAN演算法中鄰域的概念,以適應空間物件的特點 
DBLASD:  
OPTICS: OPTICS演算法結合了聚類的自動性和互動性,先生成聚類的次序,可以對不同的聚類設定不同的引數,來得到使用者滿意的結果 
FDC: FDC演算法通過構造k-d tree把整個資料空間劃分成若干個矩形空間,當空間維數較少時可以大大提高DBSCAN的效率

  • 基於網格的聚類演算法

STING: 利用網格單元儲存資料統計資訊,從而實現多解析度的聚類 
WaveCluster: 在聚類分析中引入了小波變換的原理,主要應用於訊號處理領域。(備註:小波演算法在訊號處理,圖形影象,加密解密等領域有重要應用,是一種比較高深和牛逼的東西) 
CLIQUE: 是一種結合了網格和密度的聚類演算法 
OPTIGRID: 

  • 基於神經網路的聚類演算法

自組織神經網路SOM: 該方法的基本思想是–由外界輸入不同的樣本到人工的自組織對映網路中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織後會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特徵

  • 基於統計學的聚類演算法

COBWeb: COBWeb是一個通用的概念聚類方法,它用分類樹的形式表現層次聚類 
CLASSIT: 
EM期望最大值演算法,是在概率(probabilistic)模型中尋找引數最大似然估計的演算法

AutoClass: 是以概率混合模型為基礎,利用屬性的概率分佈來描述聚類,該方法能夠處理混合型的資料,但要求各屬性相互獨立

參考