KMeans聚類是聚類分析比較簡單的一種，由於其簡單、高效、易於理解實現等優點被廣泛用於探索性資料分析中。

關於KMeans演算法的介紹、分析的相關文章可謂汗牛充棟，留給我能寫的東西並不多了，在這裡，我通過羅列相關文章的方式，將涉及KMeans聚類的各方面做一個儘量詳盡的總結。最後簡單介紹一下Spark下KMeans聚類的實現過程。

KMeans聚類

演算法原理：

由於KMeans演算法需要計算樣本點到聚類中心點的距離，因此確定距離的度量公式和各個維度的資料歸一化方式至關重要

關於資料歸一化的一些基本的方法，個人部落格下有幾篇相關的文章做了一些總結：

關於距離度量，找了幾篇相關的文章：

在選取距離度量時，還需要考慮一下幾點：

1. 非距離度量不是嚴格意義上的度量，能否計算平均值
2. 其餘的距離度量的平均值有沒有實際意義

機器學習中選用何種演算法模型進行分析建模，取決於原始資料的分佈和我們對資料的認知程度。通常來講，KMeans演算法使用球形簇的資料分佈，而非球形簇的資料分佈一般KMeans演算法會難於勝任，但這一點也不盡然，看下面這個例子：

原始資料分佈