1. 程式人生 > >K-均值算法(數據挖掘無監督學習)

K-均值算法(數據挖掘無監督學習)

roi 挖掘 mean nts 步驟 com ima spa 要求

一、無監督學習

  1、聚類:是一個將數據集中在某些方面相似的數據成員進行分類組織的過程。因此,一個聚類就是一些數據實例的集合。聚類技術經常被稱為無監督學習。

二、K-均值聚類

  1、k—均值算算法:是發現給定數據集k個簇的算法

  2、步驟:

    1)、隨機選取k個數據點作為初始的聚類中心(要求發現k個簇)。

    2)、把每個數據點分配給距離它最近的聚類中心(對圖中的所有點求到這K個種子點的距離,假如點P離種子點S最近,那麽P屬於S點群。)

    3)、重新確定聚類中心(x,y),一旦全部的數據點都被分配,每個聚類的聚類中心會更具現有數據點重新計算。x = (x1+x2+……xn)/n,y = (y1+y2+……yn)/n。

    4)、2)3)過程不斷重復,知道滿足一下三個終止(收斂)條件:

      a、滿足重復次數,比如要求循環執行五十次,第五十一次停止。

      b、沒有聚類中心再次發生變化。

      c、誤差和(SSE)局部最小技術分享圖片技術分享圖片

技術分享圖片

技術分享圖片

  3、偽代碼 :

    

1 Algorithm K-means(k,D)
2     choose k data points as the initial centroids(cluster centers)
3     repeat
4         for each data point x->D do
5
compute the distance from x to each centroid; 6 assign x to the closest centroid 7 endfor 8 re-computer the centroid using the current cluster memberships 9 until the stopping criterion

K-均值算法(數據挖掘無監督學習)