機器學習（二）——K均值聚類演算法（K-means）

阿新 • • 發佈：2019-01-10

概述：

1.聚類

“類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。

2.無監督學習和監督學習

k-均值聚類（k-means）與k-近鄰（knn）演算法之間沒有任何關係。

監督學習知道從物件（資料）中學習什麼，而無監督學習無需知道所要搜尋的目標，它是根據演算法得到資料的共同特徵。比如分類和聚類來說，分類事先就知道所要得到的類別，而聚類則不一樣，只是以相似度為基礎，將物件分得不同的簇。

3.k-means

k-means聚類演算法是一種簡單的迭代聚類演算法，採用距離作為相似性指標，從而發現給定資料集的K個類，且每個類的中心是根據類中所有值的均值得到。選取歐式距離來作為相似度指標。

4.虛擬碼

建立K個點作為起始質心（經常是隨機選擇）

當任意一個點的簇分配結果發生改變時

對資料集中的每個資料點

對每個質心

計算質心與資料點之間的距離

將資料點分配到距其最近的簇

對每一個簇，計算簇中所有點的均值並將均值作為質心

import numpy as np

#計算距離
def dist(vecA,vecB):
    return sqrt(sum(power((vecA-vecB),2)))

#隨機生成質心點
def randCent(dataSet,k):
    n = dataSet.shape[1]
    center = np.mat(np.zeros(k,n))
    for j in range(n):
        minJ = min(dataSet[:,j])
        rangeJ = float(max(dataSet[:,j])-minJ)
        center[:,j] = minJ+rangeJ*np.random.rand(k,1)
    return center
def kMeans(dataSet,k):
    m = dataSet.shape[0]  #資料集的個數
    clusterAssment = np.mat(np.zeros(m,2))  #生成一個m行2列的0矩陣，第一列用於儲存簇的類別，第二列用於儲存距離
    center = randCent(dataSet,k)  #隨機得到的質心點
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):  #遍歷每一個數據
            minDist = inf  #inf代表無窮大，-inf代表無窮小
            minIndex = -1
            for j in range(k):  #遍歷每一個質心
                distJI = dist(dataSet[i,:],center[j,:])  #計算資料與質心的距離
                if distJI<minDist:
                    minDist = distJI
                    minIndex = j
            if clusterAssment[i,0] != minIndex:  #判斷是否收斂，用於迭代，直到所有資料點的簇分配結果不再改變
                clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2  #賦值
        print(center)
        for cent in range(k):  #更新聚類質心的值
            dataCent = dataSet[np.nonzero(clusterAssment[:,0].A==cent)[0]]  #得到的dataCent為屬於同一質心的資料集
            center[cent,:]=np.mean(dataCent,axis=0)  #計算每一個類的新質心
    return center,clusterAssment

sklearn中的k-means

class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm=’auto’)

1. k-means需要調的引數很少，主要是n_clusters，簇的個數

2.返回物件的屬性

（1）cluster_centers_：每個簇的中心座標

（2）labels_：每個資料點的標籤

（3）inertia_：同一類別下的所有點到簇的平方距離

3.k-means物件的方法

（1) fit(X)：計算聚類的簇

（2）predict(X)：預測新的資料集的分類

from sklearn.cluster import KMeans
import numpy as np
x = np.array([[1, 2], [1, 4], [1, 0],
             [4, 2], [4, 4], [4, 0]])
clf = KMeans(n_clusters=2,random_state=0)
clf.fit(x)

clf.labels_
>>>array([0, 0, 0, 1, 1, 1])

clf.cluster_centers_
>>>array([[ 1.,  2.],
       [ 4.,  2.]])

clf.inertia_
>>>16.0

clf.predict([[0, 0], [4, 4]])
>>>array([0, 1])

用分類器對未知資料進行分類，需要使用的是分類器的predict方法

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

機器學習實戰———k均值聚類演算法

問題：關於第九章list（）新增的問題 fltLine = list(map(float,curLine)) fltLine = map(float,curLine) 二者的區別在於加list（）輸出為數 [1.658985, 4.285136] [-3.453

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

任務：將資料集中的樣本劃分成若干個通常不相交的子集。效能度量：類內相似度高，類間相似度低。兩大類：1.有參考標籤，外部指標；2.無參照，內部指標。距離計算：非負性，同一性（與自身距離為0），對稱性

《機器學習實戰》筆記之十——利用K均值聚類演算法對未標註資料分組

第十章利用K均值聚類演算法對未標註資料分組 10.1 K-均值聚類演算法 K-均值是發現給定資料集的k個簇的演算法，每個簇通過其質心來描述。其優點為容易實現，但可能收斂到區域性最小值，在大規模資料集上收斂較慢。隨機確定k個初始點為質心，為每個點找距其最近的質心，並將

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

引言 K-均值演算法試圖將一系列樣本分割成K個不同的類簇（其中K是模型的輸入引數），其形式化的目標函式稱為類簇內的方差和（within cluster sum of squared errors，WCSS）。K-均值聚類的目的是最小化所有類簇中的

機器學習實戰：K-均值及二分K-均值聚類演算法

# coding=utf-8 ''' Created on Feb 16, 2011 k Means Clustering for Ch10 of Machine Learning in Action #@author: Peter Harrington ''' from

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSe

【opencv學習之四十三】K均值聚類演算法

K均值聚類演算法，在opencv中通過kmeans()函式實現；k均值通俗講：就是從一堆樣本中，隨便挑出幾個，比如3個吧，然後用樣本中的和這挑出來的比較，比較後排序，誰和挑出的那個接近就把他劃到那個類裡，比如樣A和挑1、挑2、挑3中，挑2最接近，則把樣A劃到挑2裡，當然還沒完

K-均值聚類演算法學習心得

一、分類與聚類分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。聚類屬

在Ignite中使用k-均值聚類演算法

在本系列前面的文章中，簡單介紹了一下Ignite的k-最近鄰(k-NN)分類演算法，下面會嘗試另一個機器學習演算法，即使用泰坦尼克資料集介紹k-均值聚類演算法。正好，Kaggle提供了CSV格式的資料集，而要分析的是兩個分類：即乘客是否倖存。為了將資料轉換為Ignite支援的格式，前期需要做一些清理和格式化

k-均值聚類演算法

首先初始化k個點作為質心，遍歷資料集，把每一個數據點分配到距離最近的質心，把這個質心下的所有點的均值作為新的質心，迭代更新。度量聚類效果的指標：SSE( sum of squared error)誤差平方和改進演算法：二分-k-均值演算法（克服k-均值區

k-means(k均值聚類)演算法介紹及實現(c++)

基本介紹： k-means 演算法接受輸入量 k ；然後將n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得一個“中心物件”（引力中心）來進行計算的。工作過程：　　k

K-means(K-均值)聚類演算法

劃分方法聚類分析最簡單、最基本的版本是劃分，它把物件組織成多個互斥的簇。這一方法，要求每個物件必須/恰好屬於每一個簇。（事實上，我們應該知道，這個要求是很不合理的，因為它忽略了離群點，假若把噪聲資料強行劃分在簇裡，那勢必會降低聚類的準確率，所以為了改進這一點

K均值聚類演算法的MATLAB實現

單來說，K-均值聚類就是在給定了一組樣本(x1, x2, ...xn) （xi, i = 1, 2, ... n均是向量) 之後，假設要將其聚為 m(<n) 類，可以按照如下的步驟實現: Step 1: 從 (x1, x2, ...xn) 中隨機選擇

如何編寫求K-均值聚類演算法的Matlab程式？

在聚類分析中，K-均值聚類演算法（k-means algorithm）是無監督分類中的一種基本方法，其也稱為C-均值演算法，其基本思想是：通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。假設要把樣本集分為c個類別，演算法如下：（1）適當選擇c個類的初始中心；（2）在第k次迭代中，對任意

模糊聚類演算法（FCM）和硬聚類演算法（HCM)的VB6.0實現及其應用

Private Function Fcm(ByRef Data() As Double, ByVal Cluster As Long, Optional ByVal CreateIniCenter As IniCenterMethod = IniCenterMethod.CreateByHcm, Option

k-means k均值聚類及二分k均值聚類

from numpy import * def load_data(file_name): data=[] fr=open(file_name) for line in fr.readlines(): cur_line=line.st

機器學習（二）——K均值聚類演算法（K-means）

sklearn中的k-means

相關推薦