K-mean 演算法程式碼演示

阿新 • • 發佈：2018-12-11

一、肘部法則程式碼演示：

import numpy as np
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']= ['SimHei']    #中文註釋
plt.rcParams['axes.unicode_minus'] = False     #顯示正負號

cluster1 = np.random.uniform(0.5,1.5,(2,5))    #生成（0.5,1.5）之間的隨機數（2行5列） 

cluster2 = np.random.uniform(3.5,4.5,(2,5))
X = np.hstack((cluster1,cluster2)).T           #列拼接 並轉置（10行2列）

K = range(1, 6)
meandistortions = []    #存放聚類中心列表
for k in K:
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)       #擬合訓練
    
    #任一點到 簇中心點（1,2,3,4,5）的最小距離（計算過程：求和再求平均值）
    meandistortions. 
append(sum(np.min(cdist(X,kmeans.cluster_centers_,'euclidean'), axis=1)) / X.shape[0])
    print("第 {} 次-聚類中心".format(k))
    print(cdist(X,kmeans.cluster_centers_,'euclidean'))
    
    print("第 {} 次聚類時----任一點到這{}個聚類中心其中一個的最小值".format(k,k))
    print(np.min(cdist(X,kmeans.cluster_centers_,'euclidean' 
), axis=1))
print(meandistortions)
plt.plot(K, meandistortions,'bx-') # 顏色blue，線條為-
plt.xlabel('k')

plt.ylabel('Ave Distor')           # plt.ylabel('平均畸變程度',fontproperties=font)
plt.title('Elbow method value K')  # plt.title('用肘部法則來確定最佳的K值',fontproperties=font);
plt.scatter(K,meandistortions)

第 1 次-聚類中心
[[1.74027894]
 [2.0994124 ]
 [2.19487598]
 [1.6247853 ]
 [2.5367581 ]
 [2.20055775]
 [2.38302686]
 [1.86944501]
 [1.76175722]
 [1.93239761]]
第 1 次聚類時----任一點到這1個聚類中心其中一個的最小值
[1.74027894 2.0994124  2.19487598 1.6247853  2.5367581  2.20055775
 2.38302686 1.86944501 1.76175722 1.93239761]
第 2 次-聚類中心
[[0.41437355 3.74440297]
 [0.48389576 4.08852385]
 [0.38539425 4.19780298]
 [0.39572757 3.6412047 ]
 [0.52902692 4.55253021]
 [4.20345795 0.38854537]
 [4.39984072 0.36626919]
 [3.88585126 0.15788191]
 [3.76106183 0.44396886]
 [3.9489673  0.0953715 ]]
第 2 次聚類時----任一點到這2個聚類中心其中一個的最小值
[0.41437355 0.48389576 0.38539425 0.39572757 0.52902692 0.38854537
 0.36626919 0.15788191 0.44396886 0.0953715 ]
第 3 次-聚類中心
[[0.81608013 3.74440297 0.14798486]
 [0.30865648 4.08852385 0.71166069]
 [0.66318639 4.19780298 0.36613121]
 [0.70939118 3.6412047  0.32438392]
 [0.30865648 4.55253021 0.76331617]
 [4.5077369  0.38854537 4.01019761]
 [4.6806729  0.36626919 4.22353482]
 [4.16439996 0.15788191 3.71276586]
 [4.01796009 0.44396886 3.6045836 ]
 [4.23428654 0.0953715  3.77060975]]
第 3 次聚類時----任一點到這3個聚類中心其中一個的最小值
[0.14798486 0.30865648 0.36613121 0.32438392 0.30865648 0.38854537
 0.36626919 0.15788191 0.44396886 0.0953715 ]
第 4 次-聚類中心
[[8.35275775e-01 3.74440297e+00 1.73347073e-01 6.54051405e-01]
 [1.11022302e-16 4.08852385e+00 7.07872006e-01 6.79497355e-01]
 [8.47523070e-01 4.19780298e+00 5.49196809e-01 2.96595119e-01]
 [6.03803237e-01 3.64120470e+00 1.73347073e-01 7.46038907e-01]
 [6.17312957e-01 4.55253021e+00 8.93632514e-01 2.96595119e-01]
 [4.29737222e+00 3.88545375e-01 3.84921905e+00 4.52767791e+00]
 [4.45158017e+00 3.66269187e-01 4.05533792e+00 4.73496134e+00]
 [3.93512012e+00 1.57881912e-01 3.54325021e+00 4.22253532e+00]
 [3.77486350e+00 4.43968859e-01 3.42992606e+00 4.10514152e+00]
 [4.00969435e+00 9.53714969e-02 3.60306131e+00 4.28280205e+00]]
第 4 次聚類時----任一點到這4個聚類中心其中一個的最小值
[1.73347073e-01 1.11022302e-16 2.96595119e-01 1.73347073e-01
 2.96595119e-01 3.88545375e-01 3.66269187e-01 1.57881912e-01
 4.43968859e-01 9.53714969e-02]
第 5 次-聚類中心
[[3.99547298e+00 6.54051405e-01 3.58249632e+00 8.35275775e-01
  1.73347073e-01]
 [4.37009505e+00 6.79497355e-01 3.90351785e+00 1.11022302e-16
  7.07872006e-01]
 [4.44684898e+00 2.96595119e-01 4.03676843e+00 8.47523070e-01
  5.49196809e-01]
 [3.90768915e+00 7.46038907e-01 3.46792299e+00 6.03803237e-01
  1.73347073e-01]
 [4.82002958e+00 2.96595119e-01 4.37759318e+00 6.17312957e-01
  8.93632514e-01]
 [2.10371686e-01 4.52767791e+00 5.75617138e-01 4.29737222e+00
  3.84921905e+00]
 [2.10371686e-01 4.73496134e+00 5.50736875e-01 4.45158017e+00
  4.05533792e+00]
 [4.68449304e-01 4.22253532e+00 6.68934761e-02 3.93512012e+00
  3.54325021e+00]
 [7.50566708e-01 4.10514152e+00 2.49346608e-01 3.77486350e+00
  3.42992606e+00]
 [3.69410477e-01 4.28280205e+00 1.82784602e-01 4.00969435e+00
  3.60306131e+00]]
第 5 次聚類時----任一點到這5個聚類中心其中一個的最小值
[1.73347073e-01 1.11022302e-16 2.96595119e-01 1.73347073e-01
 2.96595119e-01 2.10371686e-01 2.10371686e-01 6.68934761e-02
 2.49346608e-01 1.82784602e-01]
[2.034329515810916, 0.36604548812322546, 0.2907849769947618, 0.23919212137749707, 0.18596524433109082]

這裡寫圖片描述

二、輪廓係數驗證K值

import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 10)) 
plt.subplot(3, 2, 1)
x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9])
x2 = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3])
X = np.array(list(zip(x1, x2))).reshape(len(x1), 2)
plt.xlim([0, 10])                                   # x軸的刻度
plt.ylim([0, 10])                                   # y軸的刻度
plt.title('Sample')
plt.scatter(x1, x2)
colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'b']  #樣本點顏色
markers = ['o', 's', 'D', 'v', '^', 'p', '*', '+'] #樣本點形狀
tests = [2, 3, 4, 5, 8]                            #簇的個數
subplot_counter = 1                                #訓練模型
for t in tests:
    subplot_counter += 1
    plt.subplot(3, 2, subplot_counter)
    kmeans_model = KMeans(n_clusters=t).fit(X)
    for i, l in enumerate(kmeans_model.labels_):
        plt.plot(x1[i], x2[i], color=colors[l], marker=markers[l],ls='None')
        plt.xlim([0, 10])
        plt.ylim([0, 10])                       #SCoefficient:輪廓係數[-1,1]
        plt.title('K = %s, SCoefficient = %.03f' % (t, metrics.silhouette_score
                                                    (X, kmeans_model.labels_,metric='euclidean')))
plt.show()

輸出：這裡寫圖片描述

三、Mini Batch K-Means（適合大資料的聚類演算法）

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import MiniBatchKMeans, KMeans
from sklearn import metrics
from sklearn.datasets.samples_generator import make_blobs

# make_blobs 自定義資料集

# X為樣本特徵，Y為樣本簇類別， 共1000個樣本，
# 每個樣本4個特徵，共4個簇，
# 簇中心在[-1,-1], [0,0],[1,1], [2,2]， 
# 簇方差分別為[0.4, 0.2, 0.2]

X, y = make_blobs(n_samples=1000, n_features=2, 
                  centers=[[-1,-1], [0,0], [1,1], [2,2]], 
                  cluster_std=[0.4, 0.2, 0.2, 0.2], 
                  random_state =9)
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()

for index, k in enumerate((2,3,4,5)):
    plt.subplot(2,2,index+1)
    y_pred = MiniBatchKMeans(n_clusters=k, batch_size = 200, random_state=9).fit_predict(X)
    
    #用Calinski-Harabasz Index評估二分類的聚類分數 其方法是metrics.calinski_harabaz_score
    score= metrics.calinski_harabaz_score(X, y_pred)  
    plt.scatter(X[:, 0], X[:, 1], c=y_pred)
    plt.text(.99, .01, ('k=%d, score: %.2f' % (k,score)),
                 transform=plt.gca().transAxes, size=10,
                 horizontalalignment='right')
plt.show()

輸出：這裡寫圖片描述

四、使用K-means壓縮圖片

print(__doc__)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin
from sklearn.datasets import load_sample_image
from sklearn.utils import shuffle
from time import time

n_colors = 64
china = load_sample_image("china.jpg")  # 載入圖片

#轉換為浮點數，PLTIMSID行為在浮點資料上很好地工作
china = np.array(china, dtype=np.float64) / 255

#將圖片轉成二維陣列
w, h, d = original_shape = tuple(china.shape)
assert d == 3
image_array = np.reshape(china, (w * h, d))

print("一個小樣本資料的擬合模型")
t0 = time()
image_array_sample = shuffle(image_array, random_state=0)[:1000]
kmeans = KMeans(n_clusters=n_colors, random_state=0).fit(image_array_sample)
print("done in %0.3fs." % (time() - t0))

# Get labels for all points
print("Predicting color indices on the full image (k-means)")
t0 = time()
labels = kmeans.predict(image_array)
print("done in %0.3fs." % (time() - t0))


# codebook_random = shuffle(image_array, random_state=0)[:n_colors + 1]
# print("Predicting color indices on the full image (random)")
# t0 = time()
# labels_random = pairwise_distances_argmin(codebook_random,
                                          # image_array,
                                          # axis=0)
# print("done in %0.3fs." % (time() - t0))


def recreate_image(codebook, labels, w, h):
    # Recreate the (compressed) image from the code book & labels
    d = codebook.shape[1]
    image = np.zeros((w, h, d))
    label_idx = 0
    for i in range(w):
        for j in range(h):
            image[i][j] = codebook[labels[label_idx]]
            label_idx += 1
    return image

# Display all results, alongside original image
plt.figure(1)
plt.clf()
ax = plt.axes([0, 0, 1, 1])
plt.axis('off')
plt.title('Original image (96,615 colors)')
plt.imshow(china)

plt.figure(2)
plt.clf()
ax = plt.axes([0, 0, 1, 1])
plt.axis('off')
plt.title('Quantized image (64 colors, K-Means)')
plt.imshow(recreate_image(kmeans.cluster_centers_, labels, w, h))

# plt.figure(3)
# plt.clf()
# ax = plt.axes([0, 0, 1, 1])
# plt.axis('off')
# plt.title('Quantized image (64 colors, Random)')
# plt.imshow(recreate_image(codebook_random, labels_random, w, h))
plt.show()

輸出：: 一個小樣本資料的擬合模型 done in 0.463s. Predicting color indices on the full image (k-means) done in 0.189s.

K-mean 演算法程式碼演示

一、肘部法則程式碼演示： import numpy as np from sklearn.cluster import KMeans from scipy.spatial.distance import cdist import matplotlib.pypl

python3對k-mean演算法的理解（轉）

1.隨機選取k個質心（k值取決於你想聚成幾類） random.sample(dataSet, k) k你是想聚類的個數 dataset是資料集合是陣列 2.dataSet 取出一條資料然後分別與centroidList中的k的值進行歐氏距離

機器學習之K-近鄰演算法程式碼分析

在看Peter的K-近鄰實戰時，發現原來“手寫識別系統”不止是影象處理和影象識別可以解決，原來從影象也是矩陣資料的層面來看，不同數字的識別也是資料分類問題（2333……又打開了思維的新視角）。因本身是學影象處理出身，所以關於手寫識別系統，思維受限在怎樣進行影象處理、怎樣訓練數字模型、怎樣進行數字識別了。該

k-近鄰演算法程式碼註釋（一）

from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0]

聚類方法之k-mean演算法

演算法思想： K-mean演算法又稱K均值演算法，屬於原型聚類中的一種基於距離度量的聚類演算法。其思想是： 1.隨機選取資料集中的k個初始點作為質心，遍歷整個資料集，對於每個樣本，將其歸類到距離其最近的質心所對應的簇。 2.接著計算每個簇的均值，作為當前簇

機器學習（K近鄰演算法程式碼實現迴歸）

K近鄰演算法進行迴歸預測一般步驟 1 資料的匯入與預處理 2 資料的標準化與歸一化 3 生成訓練集和測試集 4 利用訓練集進行訓練，匯入測試集得出預測值 5 真實值與與測試值進行比較評價 import csv import numpy as np import p

佇列中入隊,出隊,遍歷演算法程式碼演示

#include <stdio.h> #include <stdlib.h> typedef struct STR{ int * Pbase; int front; int rear; }QUEUE,*pQueue; voi

K-means和K-means++演算法程式碼實現（Python）

K-means和K-means++主要區別在於，K-means++演算法選擇初始類中心時，儘可能選擇相距較遠的類中心，而K-means僅僅是隨機初始化類中心。 #K-means演算法 from pylab import * from numpy import * impo

K近鄰演算法(KNN)原理解析及python實現程式碼

KNN演算法是一個有監督的演算法，也就是樣本是有標籤的。KNN可以用於分類，也可以用於迴歸。這裡主要講knn在分類上的原理。KNN的原理很簡單：放入一個待分類的樣本，使用者指定k的大小，然後計算所有訓練樣本與該樣

排序演算法：初級三大演算法思路與python程式碼演示

三大初級演算法難度 ★ 演算法複雜度O(n2) 氣泡排序 ★ Bubble Sort 演算法複雜度: O(n2) 思路趟數從0開始算每一趟，列表相鄰兩前面比後面大則交換位置，每一趟無序的少一個，有序的多一個數優化：

K-means演算法解析及程式碼

上週看到K-means演算法，覺得挺有意思的，然後就分析了一下原理，又用JAVA實現了一下，水平有限，還請看到此部落格的各路大神，如果看到有誤的地方，還請幫我糾正一下。我給這個演算法的定義：根據某種規則，將相同的或者相近的物件，存放到一起。基本原理： 1.定義幾個初始點當做基準

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

《機器學習實戰》第2章閱讀筆記2 K近鄰演算法實現（附詳細程式碼及註釋）

虛擬碼如下：對未知類別屬性的資料集中的每個點一次執行以下操作：（1）計算已知類別資料集中的點與當前點之間的距離；（2）按照距離遞增次序排序；（3）選取與當前點距離最小的k個點；（4）確定前k個點所在類別出現的頻率（5）返回前k個點出現頻率最高的類

python3實現K-鄰近演算法(機器學習實戰中程式碼)

from numpy import * import operator #inx：待預測資料 dateSet：訓練樣本集 labels：訓練樣本的標籤 k：k鄰近演算法的k值 def classify0(inX, dateSet, labels, k):

機器學習演算法及程式碼實現--K鄰近演算法

機器學習演算法及程式碼實現–K鄰近演算法 1、K鄰近演算法將標註好類別的訓練樣本對映到X（選取的特徵數）維的座標系之中，同樣將測試樣本對映到X維的座標系之中，選取距離該測試樣本歐氏距離（兩點間距離公式）最近的k個訓練樣本，其中哪個訓練樣本類別佔比最大，我們

機器學習實戰k近鄰演算法(kNN)應用之手寫數字識別程式碼解讀

from numpy import * from os import listdir import operator import time #k-NN簡單實現函式 def classify0(inX,dataSet,labels,k): #求出樣本集的行數，也就是labels標籤的數目

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 1、匯入資料： #coding:gbk from numpy import * import operator de

機器學習實戰k-鄰近演算法(kNN)簡單實施程式碼解讀

一.概念 k-鄰近演算法是最簡單的機器學習演算法之一。 k-鄰近演算法採用測量不同特徵值之間的距離（具體說是歐氏距離）的方法進行分類。輸入待分類的資料後，計算輸入特徵與樣本集資料對應特徵的距離，選擇樣本集中與輸入特徵距離最小的前k個樣本，統計這k個樣本資

統計學習方法 k 近鄰演算法(附簡單模型程式碼)

1. k 近鄰演算法 k近鄰法（k-nearest neighbor， k-NN）是一種基本分類與迴歸方法。 k近鄰法的輸入為例項的特徵向量，對應於特徵空間的點；輸出為例項的類別，可以取多類。 k近鄰法假設給定一個訓練資料集，其中的例項類別已定。分類時，對新的例項，根

Python3《機器學習實戰》01：k-近鄰演算法（完整程式碼及註釋）

執行平臺： Windows Python版本： Python3 IDE： Anaconda3 # -*- coding: utf-8 -*- """ Created on Sun Apr 29 20:32:03 2018 @author: Wang

K-mean 演算法程式碼演示

相關推薦