Python實現k-means演算法

阿新 • • 發佈：2019-02-02

這也是周志華《機器學習》的習題9.4。
資料集是西瓜資料集4.0，如下

編號,密度,含糖率
1,0.697,0.46
2,0.774,0.376
3,0.634,0.264
4,0.608,0.318
5,0.556,0.215
6,0.403,0.237
7,0.481,0.149
8,0.437,0.211
9,0.666,0.091
10,0.243,0.267
11,0.245,0.057
12,0.343,0.099
13,0.639,0.161
14,0.657,0.198
15,0.36,0.37
16,0.593,0.042
17,0.719,0.103
18,0.359,0.188
19,0.339,0.241
20,0.282,0.257
21,0.784,0.232
22,0.714,0.346
23,0.483,0.312
24,0.478,0.437
25,0.525,0.369
26,0.751,0.489
27,0.532,0.472
28,0.473,0.376
29,0.725,0.445
30,0.446,0.459

演算法很簡單，就不解釋了，程式碼也不復雜，直接放上來：

# -*- coding: utf-8 -*- 
"""Excercise 9.4"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sys
import random

data = pd.read_csv(filepath_or_buffer = '../dataset/watermelon4.0.csv', sep = ',')[["密度","含糖率"]].values

########################################## K-means #######################################  

k = int(sys.argv[1])
#Randomly choose k samples from data as mean vectors
mean_vectors = random.sample(data,k)

def dist(p1,p2):
    return np.sqrt(sum((p1-p2)*(p1-p2)))
while True:
    print mean_vectors
    clusters = map ((lambda x:[x]), mean_vectors) 
    for sample in data:
        distances = map((lambda 
 m: dist(sample,m)), mean_vectors) 
        min_index = distances.index(min(distances))
        clusters[min_index].append(sample)
    new_mean_vectors = []
    for c,v in zip(clusters,mean_vectors):
        new_mean_vector = sum(c)/len(c)
        #If the difference betweenthe new mean vector and the old mean vector is less than 0.0001
        #then do not updata the mean vector
        if all(np.divide((new_mean_vector-v),v) < np.array([0.0001,0.0001]) ):
            new_mean_vectors.append(v)   
        else:
            new_mean_vectors.append(new_mean_vector)   
    if np.array_equal(mean_vectors,new_mean_vectors):
        break
    else:
        mean_vectors = new_mean_vectors 

#Show the clustering result
total_colors = ['r','y','g','b','c','m','k']
colors = random.sample(total_colors,k)
for cluster,color in zip(clusters,colors):
    density = map(lambda arr:arr[0],cluster)
    sugar_content = map(lambda arr:arr[1],cluster)
    plt.scatter(density,sugar_content,c = color)
plt.show()

執行方式：在命令列輸入 python k_means.py 4。其中4就是k。
下面是k分別等於3，4，5的執行結果，因為一開始的均值向量是隨機的，所以每次執行結果會有不同。
k=3

k=4

k=5

Python實現k-means演算法

這也是周志華《機器學習》的習題9.4。資料集是西瓜資料集4.0，如下編號,密度,含糖率 1,0.697,0.46 2,0.774,0.376 3,0.634,0.264 4,0.608,0.318 5,0.556,0.215 6,0.403,0.23

Python實現K-Means聚類演算法

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python從入門到深度學習》，歡迎大家關注~

【Python】k-means演算法實現

# -*- coding: utf-8 -*- import math import random import matplotlib.pyplot as plt from matplotlib import colors as m_colors #生成樣本點 def g

用python實現K均值演算法

import numpy as np x = np.random.randint(1,60,[30,1]) y = np.zeros(20) k = 3 #1選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心； def initcen(x,k): return x[:k]

spark 實現K-means演算法

spark 實現K-means演算法 package kmeans; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFou

python實現k近鄰演算法

很簡單的一個分類演算法：根據不同特徵值之間的距離方法進行分類優點：輸入高，對異常值不敏感，無資料輸入假定缺點：計算複雜度高，空間複雜度高適用資料範圍：數值型和標稱型程式碼實現： """K近鄰演算法""" """虛擬碼：（1）計算已知資料集的點與

利用Python實現K-Means聚類並進行圖形化展示

利用K-means進行聚類，顯示聚類結果的各類別的數量，最終進行圖形化展示。 import pandas as pd import numpy as np import matplotlib.pyplot as plt from scipy import stats import c

java實現K-means演算法，k-means聚類演算法原理

/** * 需要所有point 以及族中心list * * @author:Yien * @when:2018年5月20日下午3:14:09 * @Description:TOD

Python實現K近鄰演算法_分類器

收集資料 31,65,4,1 33,58,10,1 33,60,0,1 34,59,0,2 34,66,9,2 這是關於乳腺癌已手術患者存活時間(壽命)的樣本集，文字檔案中共包含306個樣本，樣本包含的屬性有： 1. 患者做手術時的年齡 opAge

Python實現K-means程式碼詳解（新手上路）

#coding=utf-8 2 from numpy import * 3 4 def loadDataSet(fileName): 5 dataMat = [] 6 fr = open(fileName) 7 for line in fr.readli

TensorFlow實現K-means演算法

正如標題所示：利用 tf 實現k-means演算法由於我也是菜雞一隻，把程式碼註釋寫在這裡，給和我一樣是菜雞的人看。如果有哪裡註釋不對，或者不夠科學的地方，還請各位指正。本文的主要程式碼來自於這篇部落格，更改了此篇部落格中 tf 減法運算函式錯誤，https://blog.

python 使用K-Means演算法對資料進行聚類

K-Means是聚類演算法的一種，以距離來判斷資料點間的相似度並對資料進行聚類。前面的文章中我們介紹過K-Means聚類演算法的原理及實現。本篇文章使用scikit-learn庫對資料進行聚類分析。準備工作開始之前先匯入要使用的各種庫檔案，首先是scikit-learn庫，然

Spark實現K-Means演算法

import org.apache.log4j.{Level,Logger} import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.clustering.KMeans import org.ap

java實現k-means演算法（用的鳶尾花iris的資料集，從mysq資料庫中讀取資料）

k-means演算法又稱k-均值演算法，是機器學習聚類演算法中的一種，是一種基於形心的劃分方法，其中每個簇的中心都用簇中所有物件的均值來表示。其思想如下：輸入： k：簇的數目；D：包含n個物件的資料集。輸出：k個簇的集合。方法：從D中隨機選擇幾個物件作為起始質心

Python實現k-近鄰演算法

1、分類器實現 import numpy as np import operator def KNN(inx, dataset, labels, k): '''inx:待測元素;dataset:已知資料集(Numpy格式);labels:已知資料集元素對應的類別

K-means演算法及python sklearn實現

目錄前言例項推演 K值的確定輪廓係數 K-means演算法前言根據訓練樣本是否包含標籤資訊，機器學習可以分為監督學習和無監督學習。聚類演算法是典型的無監督學習，其訓練樣本中只包含樣本特徵，不包含樣本的標

k-means演算法及python實現

本篇文章主要講解聚類分析中的一種常用的演算法k-means，它的全稱叫作k均值演算法。 k-means原理 k-means演算法是一種基於原型的、劃分的聚類技術。基於原型可以理解為基於質心，也就是說，每個物件到定義該簇質心的距離比到其他簇質心的距離更近。當質心沒有意義

python 實現周志華機器學習書中 k-means 演算法

hello，all 上節採用python實現了決策樹，本節使用python實現k-means演算法，後一節將會採用map-reduce實現k-means演算法演算法程式如下：演算法程式碼如下： # coding=utf-8 import pprint import

（二）k-means演算法原理以及python實現

一、有監督學習和無監督學習 1. 有監督學習監督學習（supervised learning）：通過已有的訓練樣本（即已知資料以及其對應的輸出）來訓練，從而得到一個最優模型，再利用這個模型將所有新的資料樣本對映為相應的輸出結果，對輸出結果進行簡單的判斷從而

K-means和K-means++演算法程式碼實現（Python）

K-means和K-means++主要區別在於，K-means++演算法選擇初始類中心時，儘可能選擇相距較遠的類中心，而K-means僅僅是隨機初始化類中心。 #K-means演算法 from pylab import * from numpy import * impo

Python實現k-means演算法

相關推薦