機器學習筆記(十二):聚類
阿新 • • 發佈:2018-12-12
目錄
1)Unsupervised learning introduction
5)Choosing the number of clusters
1)Unsupervised learning introduction
下圖是我們之前學習的監督學習,監督學習樣本是有標籤的,而另一張圖是無監督學習樣本,是沒有標籤的。
2)K-means algorithm
k均值是最普及的聚類演算法,演算法接受一個未標記的資料集,然後將資料集聚類成不同的組。
- k均值是一個迭代演算法,假設我們想要將資料聚類成n個組,其方法為;
- 首先選擇K個隨機的點,稱為聚類中心;
- 對於資料集中的每一個數據,按照距離K箇中心店的距離,將其與距離最近的中心點關聯起來,與同一個中心店關聯的所有點聚成一類,計算每一個組的平均值,將該組所關聯的中心點移動到平均值的位置。
- 重複上述步驟至中心點不再變化。
下面是一個聚類示例:
下面是K均值演算法:
- 對於每一個樣例i,計算其應該屬於的類 :
- 對於每一個類k,重新計算平均值:
3)Optimization objective
和監督學習類似,我們介紹代價函式:
4)Random initialization
我們前面介紹了K均值演算法,代價函式為:
隨機初始化:
5)Choosing the number of clusters
聚類數的選擇這裡提到了肘部法則,但更多的是根據實際問題來選擇。