1. 程式人生 > >非監督式學習:聚類和降為

非監督式學習:聚類和降為

聚類主要的三種模型:K-means,混合高斯以及譜聚類
   K-means是非常簡單和直觀的聚類,他用歐式距離來度量資料間的相似度。類似畫圈圈的方法來完成聚類運算。它隱含的假設是資料的各維度是均質的,應用範圍比較窄。
   為了解決引用範圍比較窄的問題,我們討論混合高斯模型,它是一個生成式模型,是二次判別分析的非監督版本。混合高斯對聚類的處理可以形象的理解為“畫橢圓”,因此,k-means其實是這個模型的特例。
   混合高斯模型沒有辦法對類似流體的的資料做聚類。譜聚類的思路是先將資料轉換為連通圖,再借助Laplacian matrix的特徵向量完成連通圖的向量化,最後在響亮的基礎上完成聚類運算。
   如何選擇聚類個數K,選擇了兩種模型:主成分分析和階段奇異值分解。
   從建模思路上看,主成分分析將降為過程中儘可能的保留資料間的差異,而截斷奇異值分解的目的是儘可能的還原原有矩陣。兩個模型的理論基礎都是矩陣的特徵向量。
   主成分分析主要用於資料視覺化和減低資料中隨機因素的干擾,而截斷奇異值分解則主要用於生成更高效的向量來表示資料。