聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

阿新 • • 發佈：2018-10-31

return 判斷 flag space image from .data cluster 改變

1.K-means是一個反復叠代的過程，算法分為四個步驟：

（1）選取數據空間中的K個對象作為初始中心，每個對象代表一個聚類中心；

（2）對於樣本中的數據對象，根據它們與這些聚類中心的歐氏距離，按距離最近的準則將它們分到距離它們最近的聚類中心（最相似）所對應的類；

（3）更新聚類中心：將每個類別中所有對象所對應的均值作為該類別的聚類中心，計算目標函數的值；

（4）判斷聚類中心和目標函數的值是否發生改變，若不變，則輸出結果，若改變，則返回2）。

import numpy as np
x=np.random.randint(1,100,[20,1])
y=np.zeros(20)
k=3

#初始聚類中心數組 

def initcenter(x,k):
    return x[:k].reshape(k)
#數組中的值，與聚類中心最新距離所在類別的索引號
def nearest(kc,i):
    d = (abs(kc - i))
    w = np.where(d == np.min(d))       
    return w[0][0]
#對數組的每個組分類
def xclassify(x,y,kc):
    for i in range(x.shape[0]):
        y[i]=nearest(kc,x[i])
    return y
kc=initcenter(x,k)
y 
=xclassify(x,y,kc)
print(kc,y)
#計算各聚類新均值
def kcmean(x,y,kc,k):    
    l = list(kc)
    flag = False
    for c in range(k):
        m = np.where(y == c)
        n=np.mean(x[m])
        if m[0].shape != (0,):
            n = np.mean(x[m])
        if l[c] != n:
            l[c] = n
            flag = True     
         
return (np.array(l),flag)

k = 3
kc = initcenter(x,k)
flag = True 
print(x,y,kc,flag)
while flag:
    y = xclassify(x,y,kc)
    kc,flag = kcmean(x, y, kc, k)
print(y,kc)
print(x,y)

運行結果如下：

技術分享圖片

2. 鳶尾花花瓣長度數據做聚類並用散點圖顯示。

#加載numpy包
import numpy as np
#加載sklearn包
from sklearn.datasets import load_iris 
#讀出鳶尾花數據集iris
iris=load_iris()

x=iris.data[:,1]
y=np.zeros(150)
#初始聚類中心數組
def initcenter(x,k):
    return x[0:k].reshape(k)
#數組中的值，與聚類中心最新距離所在類別的索引號
def nearest(kc,i):
    d = (abs(kc - i))
    w=np.where(d==np.min(d))
    return w[0][0]
#計算各聚類新均值
def kcmean(x, y, kc, k):  
    l = list(kc)
    flag = False
    for c in range(k):
        m = np.where(y == c)
        n = np.mean(x[m])
        if l[c] != n:
            l[c] = n
            flag = True  
    return (np.array(l), flag)
#對數組的每個組分類
def xclassify(x,y,kc):
    for i in range(x.shape[0]):
        y[i]=nearest(kc,x[i])
    return y

k = 3
kc = initcenter(x, k)
flag = True
print(x, y, kc, flag)
while flag:
    y = xclassify(x, y, kc)
    kc, flag = kcmean(x, y, kc, k)
print(y, kc, type(kc))

import matplotlib.pyplot as plt
plt.scatter(x,x,c=y,s=50,cmap=‘rainbow‘,marker=‘p‘,alpha=0.5)
plt.show()

運行結果如下：

技術分享圖片

3. 用sklearn.cluster.KMeans，鳶尾花花瓣長度數據做聚類並用散點圖顯示.

import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris= load_iris()
x=iris.data

petal_length = x[:, 2:3]
 
print(petal_length)
est = KMeans(n_clusters=3)
est.fit(petal_length)
kc = est.cluster_centers_
y_kmeans = est.predict(petal_length)

print(y_kmeans,kc)
print(kc.shape,y_kmeans.shape,np.shape)
plt.scatter(petal_length,np.linspace(1,150,150),c=y_kmeans,marker=‘o‘,cmap=‘rainbow‘)
plt.show()

運行結果如下：

技術分享圖片

4. 鳶尾花完整數據做聚類並用散點圖顯示。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

iris=load_iris()
x=iris.data

est = KMeans(n_clusters = 3)
est.fit(x)
kc = est.cluster_centers_
y_kmeans = est.predict(x)  

print(y_kmeans,kc)
print(kc.shape,y_kmeans.shape,np.shape)

plt.scatter(x[:,0],x[:,1],c=y_kmeans,s=50,cmap=‘rainbow‘);
plt.show()

運行結果如下：

技術分享圖片

聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

第八次作業：聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

ans 運行 port 輸出結果 info 對數 num 函數 () import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 def initcenter(x,k):

聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

return 判斷 flag space image from .data cluster 改變 1.K-means是一個反復叠代的過程，算法分為四個步驟：（1）選取數據空間中的K個對象作為初始中心，每個對象代表一個聚類中心；（2）對於樣本中的數據對象，根據它們與這些聚

第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 x def initcenter(x, k):#初始聚類中心陣列 return x[:k] kc = initcenter

第八次作業-----#聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

1. 用python實現K均值演算法 K-means是一個反覆迭代的過程，演算法分為四個步驟：（x,k,y) 1）選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心； def initcenter(x, k): kc 2）對於樣本中的資料物件，根據它們與這些聚類中心的歐氏距離，按距

聚類--K均值算法

return turn itl 所在 size load 顯示 ict .data 聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用 1.用python實現K均值算法 K-means是一個反復叠代的過程，算法分為四個步驟:（x,k,y)

聚類分析K均值算法講解

分配最後一行 table 符號表操作 style 查詢簡單大型數據集聚類分析及K均值算法講解吳裕雄當今信息大爆炸時代，公司企業、教育科學、醫療衛生、社會民生等領域每天都在產生大量的結構多樣的數據。產生數據的方式更是多種多樣，如各類的：攝像頭、傳感器、報表、海量

ng機器學習視頻筆記（十一） ——K-均值算法理論

微信公眾分類 under 等於分析一個筆記不同 learn ng機器學習視頻筆記（十一） ——K-均值算法理論（轉載請附上本文鏈接——linhxx）一、概述 K均值（K-Means）算法，是一種無監督學習（Unsupervised

K-均值算法（數據挖掘無監督學習）

roi 挖掘 mean nts 步驟 com ima spa 要求一、無監督學習　　1、聚類：是一個將數據集中在某些方面相似的數據成員進行分類組織的過程。因此，一個聚類就是一些數據實例的集合。聚類技術經常被稱為無監督學習。二、K-均值聚類　　1、k—均值算算法：是發

機器學習--聚類系列--DBSCAN算法

都是 img 子集 sed 聚類數據集噪聲屬於算法 DBSCAN算法　　基本概念:(Density-Based Spatial Clustering of Applications with Noise) 　　　　核心對象:若某個點的密度達到算法設定的閾值則其為核

機器學習演算法原理總結系列---演算法基礎之(11)聚類K均值(Clustering K-means）

一、原理詳解歸類：聚類(clustering) 屬於非監督學習 (unsupervised learning) 無類別標記(class label) 舉例： K-means 演算法： 3.1 Clustering 中

影象聚類-K均值聚類

最近做的一個東西跟這個相關，本來希望是用深度學習對於沒有標籤的影象資料進行分類，但是通常情況下，深度學習是對有標籤的資料進行學習，目的是用來自動提取特徵，代替傳統的手工提取特徵。因此，比較容易想到，對於無標籤又需要分類的影象資料，可以嘗試先採用聚類來解決. 下面的內容是譯

kNN(k近鄰)算法代碼實現

通過預測 3.5 得到 counter 代碼實現 code 統計 args 目標：預測未知數據(或測試數據)X的分類y 批量kNN算法 1.輸入一個待預測的X(一維或多維)給訓練數據集,計算出訓練集X_train中的每一個樣本與其的距離 2.找到前k個距離該數據最近

JavaScript 常用的排序算法：冒泡排序與快速排序

sort 一個數最大值 ray 原理數字 class ret 坐標冒泡排序 function bubbleSort(array) { for (let i = 0; i < array.length; i++) for (let j =

K均值聚類算法的MATLAB實現

均值選擇自己 eps 隨機生成工具 images num step 1.K-均值聚類法的概述之前在參加數學建模的過程中用到過這種聚類方法，但是當時只是簡單知道了在matlab中如何調用工具箱進行聚類，並不是特別清楚它的原理。最近因為在學模式識別，又重新接觸了這

機器學習--聚類系列--K-means算法

工作監督學習相交結果最小化 graph 形狀 xmlns msu 一、聚類　　聚類分析是非監督學習的很重要的領域。所謂非監督學習，就是數據是沒有類別標記的，算法要從對原始數據的探索中提取出一定的規律。而聚類分析就是試圖將數據集中的樣本劃分為若幹個不相交的子集，每個

聚類演算法（一）：k-均值 (k-means)演算法

首先確保你在動手寫程式碼之前已經瞭解什麼是聚類分析。 k-均值演算法----一種基於形心地技術的聚類演算法。k-均值演算法的英文名是k-means，那麼這個演算法是怎麼工作的呢？ k-均值演算法把簇的形心定義為簇內點的均值。它的處理流程如下：1.在資料點集D中隨機的選擇k個

聚類分析（一）：K均值聚類與層次聚類

介紹三類聚類分析演算法，本篇介紹K均值聚類、層次聚類，下篇介紹圖團體（graph community）聚類。聚類分析又稱群分析，它是研究樣本分類問題的一種統計分析方法，同時也是資料探勘的一個重要演算法。聚類分析以相似性為基礎，在一個聚類（cluster）中的

Kmeans聚類算法及其 Python實現

lap pytho pan 鏈接 nbsp ade 不知道 ans details python Kmeans聚類之後如何給數據貼上聚類的標簽？用了二分Kmeans 來聚類質心和聚類的簇都得到了，不知道如何給每一條數據貼上具體的標簽？這個鏈接下的代碼，可以作為參

如何利用kmeans將數據更加準確地聚類---利用隱含變量最佳類別（EM算法思想）實現

空間算法 mage ref 變化 val and 情況 ble K-means也是聚類算法中最簡單的一種了，但是裏面包含的思想卻是不一般。最早我使用並實現這個算法是在學習韓爺爺那本數據挖掘的書中，那本書比較註重應用。看了Andrew Ng的這個講義後才有些明白K-mean

算法：用兩個棧來實現一個隊列，完成隊列的Push和Pop操作。隊列中的元素為int類型。《劍指offer》

pack 代碼 exception 隊列 imp scrip 入棧 return tro 算法：用兩個棧來實現一個隊列，完成隊列的Push和Pop操作。隊列中的元素為int類型。《劍指offer》利用棧來進行操作，代碼註釋寫的比較清楚：首先判斷兩個棧是否是空的：

聚類--K均值算法：自主實現與sklearn.cluster.KMeans調用

相關推薦