1. 程式人生 > >機器學習筆記(十二):聚類

機器學習筆記(十二):聚類

目錄

1)Unsupervised learning introduction

2)K-means algorithm

3)Optimization objective

4)Random initialization

5)Choosing the number of clusters


1)Unsupervised learning introduction

下圖是我們之前學習的監督學習,監督學習樣本是有標籤的,而另一張圖是無監督學習樣本,是沒有標籤的

2)K-means algorithm

k均值是最普及的聚類演算法,演算法接受一個未標記的資料集,然後將資料集聚類成不同的組。

  1. k均值是一個迭代演算法,假設我們想要將資料聚類成n個組,其方法為;
  2. 首先選擇K個隨機的點,稱為聚類中心;
  3. 對於資料集中的每一個數據,按照距離K箇中心店的距離,將其與距離最近的中心點關聯起來,與同一個中心店關聯的所有點聚成一類,計算每一個組的平均值,將該組所關聯的中心點移動到平均值的位置。
  4. 重複上述步驟至中心點不再變化。

下面是一個聚類示例:

下面是K均值演算法:

  1. 對於每一個樣例i,計算其應該屬於的類:對於每一個樣例i,計算其應該屬於的類 :min||x^{(i))}-u_{k}||^2(k=1,2,...,K)
  2. 對於每一個類k,重新計算平均值:

3)Optimization objective

和監督學習類似,我們介紹代價函式:

J(c^{(i)},...,c^{(m)},u_i,...,u_k)=\frac{1}{m}\sum_{i=1}^{m}(X^{(i)}-u_{c^{(i)}})^2

 

 

4)Random initialization

我們前面介紹了K均值演算法,代價函式為:

隨機初始化:

5)Choosing the number of clusters

聚類數的選擇這裡提到了肘部法則,但更多的是根據實際問題來選擇。