1. 程式人生 > >聚類算法相關

聚類算法相關

密度 最大 location 混合高斯模型 高斯 mean 思想 聚類算法 oca

Bisecting KMeans

Bisecting KMeans算法的主要思想是:首先將所有點作為一個簇,然後將該簇一分為二,之後選擇能最大限度降低聚類代價函數(也就是誤差平方和)的簇劃分為兩個簇,以此進行下去,直到簇的數目等於用戶給定的數目k為止。

Gaussian Mixture Model

所謂混合高斯模型就是指對樣本的概率密度分布進行估計,而估計的模型是幾個高斯模型加權之和(具體是幾個要在模型訓練前建立好)。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數據分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然後我們可以選取概率最大的類所為判決結果。

Latent Dirichlet Allocation

LDA主題模型的思想是將一篇文檔中的內容抽象成多個主題,每個主題擁有自己的詞,並且每篇文檔按照概率分布的形式給出。

聚類算法相關