常用分類聚類演算法
什麼是分類
分類任務就是明確物件屬於哪個預定義的目標類。其中預定義的目標類是離散時為分類,連續時為迴歸。
有哪些分類方法
常用的分類演算法有決策樹,基於規則的分類演算法,神經網路,支援向量機和樸素貝葉斯分類法等。(參考常用分類演算法總結)
-
決策樹
-
基於規則的分類演算法
-
樸素貝葉斯 雜貨鋪
-
最近鄰分類器
-
貝葉斯信念網路(BBN)
-
人工神經網路
-
支援向量機的特徵(SVM)
什麼是聚類
聚類就是按照某個特定標準(如距離準則,即資料點之間的距離)把一個數據集分割成不同的類或簇,使得同一個簇內的資料物件的相似性儘可能大,同時不在同一個簇中的資料物件的差異性也儘可能地大。
有哪些聚類
- 基於劃分聚類演算法(partition clustering)
k-means: 是一種典型的劃分聚類演算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該演算法只能處理數值型資料
k-modes: K-Means演算法的擴充套件,採用簡單匹配方法來度量分型別資料的相似度
k-prototypes: 結合了K-Means和K-Modes兩種演算法,能夠處理混合型資料
k-medoids: 在迭代過程中選擇簇中的某點作為聚點,PAM是典型的k-medoids演算法
CLARA: CLARA演算法在PAM的基礎上採用了抽樣技術,能夠處理大規模資料
CLARANS: CLARANS演算法融合了PAM和CLARA兩者的優點,是第一個用於空間資料庫的聚類演算法
Focused CLARAN: 採用了空間索引技術提高了CLARANS演算法的效率
PCM: 模糊集合理論引入聚類分析中並提出了PCM模糊聚類演算法
- 基於層次聚類演算法
CURE: 採用抽樣技術先對資料集D隨機抽取樣本,再採用分割槽技術對樣本進行分割槽,然後對每個分割槽區域性聚類,最後對區域性聚類進行全域性聚類
ROCK: 也採用了隨機抽樣技術,該演算法在計算兩個物件的相似度時,同時考慮了周圍物件的影響
CHEMALOEN(變色龍演算法): 首先由資料集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分演算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最後用一個凝聚的層次聚類演算法反覆合併子簇,找到真正的結果簇
SBAC: SBAC演算法則在計算物件間相似度時,考慮了屬性特徵對於體現物件本質的重要程度,對於更能體現物件本質的屬性賦予較高的權值
BIRCH: BIRCH演算法利用樹結構對資料集進行處理,葉結點儲存一個聚類,用中心和半徑表示,順序處理每一個物件,並把它劃分到距離最近的結點,該演算法也可以作為其他聚類演算法的預處理過程
BUBBLE: BUBBLE演算法則把BIRCH演算法的中心和半徑概念推廣到普通的距離空間
BUBBLE-FM: BUBBLE-FM演算法通過減少距離的計算次數,提高了BUBBLE演算法的效率
- 基於密度聚類演算法
DBSCAN: DBSCAN演算法是一種典型的基於密度的聚類演算法,該演算法採用空間索引技術來搜尋物件的鄰域,引入了“核心物件”和“密度可達”等概念,從核心物件出發,把所有密度可達的物件組成一個簇
GDBSCAN: 演算法通過泛化DBSCAN演算法中鄰域的概念,以適應空間物件的特點
DBLASD:
OPTICS: OPTICS演算法結合了聚類的自動性和互動性,先生成聚類的次序,可以對不同的聚類設定不同的引數,來得到使用者滿意的結果
FDC: FDC演算法通過構造k-d tree把整個資料空間劃分成若干個矩形空間,當空間維數較少時可以大大提高DBSCAN的效率
- 基於網格的聚類演算法
STING: 利用網格單元儲存資料統計資訊,從而實現多解析度的聚類
WaveCluster: 在聚類分析中引入了小波變換的原理,主要應用於訊號處理領域。(備註:小波演算法在訊號處理,圖形影象,加密解密等領域有重要應用,是一種比較高深和牛逼的東西)
CLIQUE: 是一種結合了網格和密度的聚類演算法
OPTIGRID:
- 基於神經網路的聚類演算法
自組織神經網路SOM: 該方法的基本思想是–由外界輸入不同的樣本到人工的自組織對映網路中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織後會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特徵
- 基於統計學的聚類演算法
COBWeb: COBWeb是一個通用的概念聚類方法,它用分類樹的形式表現層次聚類
CLASSIT:
EM期望最大值演算法,是在概率(probabilistic)模型中尋找引數最大似然估計的演算法
AutoClass: 是以概率混合模型為基礎,利用屬性的概率分佈來描述聚類,該方法能夠處理混合型的資料,但要求各屬性相互獨立