如何確定Kmeans中的k值

阿新 • • 發佈：2019-01-06

KMeans聚類是目前應用比較廣泛的無監督聚類方法。
但是存在下面兩個問題：
1.初始簇的選擇，一般python呼叫Kmeans包的時候是隨機生成初始簇，但是存在一些問題。這個以後再做相信分析。
2.現在遇到的一個問題是：需求方想知道k是怎麼確定的，一般k是通過經驗給出的，或者對於資料有一個瞭解，有大致的k值範圍。
但是如果資料量巨大，該怎麼確定比較好的k值呢？
現在有一個解決辦法:Kmeans聚類的效果評估方法是SSE，是計算所有點到相應簇中心的距離均值，當然，k值越大
SSE越小，我們就是要求出隨著k值的變化SSE的變化規律，找到SSE減幅最小的k值，這時k應該是相對比較合理的值。

（這是目前的遇到的一點問題，以後還會繼續補充）
最近用手中的資料用Kmeans實驗了一下，下面是用python實現的過程：
step 1：匯入資料
step 2：找到最佳的k
下面是python程式碼：
inertia=[]
label_pred=[]
meanall=meanall.fillna(0)
centroids=[]
for k in range(1,10):
estimator = KMeans(n_clusters=k)#構造聚類器
estimator.fit(meanall)#聚類
label_pred.append(estimator.labels_) #獲取聚類標籤
centroids.append(estimator.cluster_centers_) #獲取聚類中心
inertia.append(estimator.inertia_ )# 獲取聚類準則的總和
這裡寫圖片描述

由此確定最佳的k為3，畫出k=3時的分類情況，如下圖：
這裡寫圖片描述

如何確定Kmeans中的k值

如何確定Kmeans中的k值

聚類演算法中K值的選取

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

R語言 ConsensusClusterPlus 確定最佳K值

劍指offer——輸出陣列中k個最小值(快速，冒泡，選擇，插入）

kmeans聚類選擇最優K值python實現

探究ConcurrentHashMap中鍵值對在Segment[]的下標如何確定

用K折交叉驗證估計KNN演算法中的K值

sklearn-Cross_Validation1：knn演算法中不同k值對應的模型準確率

K-mean原理及實踐（K值確定）

【R與聚類演算法】：確定K值個數

Kmeans聚類-K值以及簇中心點的選取

從大到小輸出二叉搜尋樹中鍵值不小於K的關鍵字

KNN方法中關於K值的影響

下拉框只顯示最初下拉框中的值和json返回array的交集

4種方法獲取select下拉框標簽中的值

MySQL中null值問題

selenium+java：獲取列表中的值

leetcode鏈表--15、everse-nodes-in-k-group（按照k值進行k個結點的逆序）

刪除一個數組中某個值

如何確定Kmeans中的k值

相關推薦