非監督學習—K-means演算法聚類學習筆記

阿新 • • 發佈：2019-01-12

非監督學習：無類別標記的

一、 K-means 演算法：

1. Clustering 中的經典演算法，資料探勘十大經典演算法之一

2. 引數k

已知引數 k ；然後將事先輸入的n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。

3. 演算法思路：以空間中k個點為中心進行聚類，對最靠近他們的物件歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

4. 演算法描述：

（1）任意適當選擇c個類的初始中心；
（2）在第k次迭代中，對任意一個樣本，求其到c各中心的距離，將該樣本歸到距離最短的中心所在的類；
（3）利用均值等方法更新該類的中心值；
（4）對於所有的c個聚類中心，如果利用(2)(3)的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

5. 演算法流程

    輸入：類的數量k、資料data[n]；
          （1）選擇k個初始中心點，例如c[0]=data[0],…c[k-1]=data[k-1]；
          （2）對於data[0]….data[n], 分別與c[0]…c[k-1]比較，假定與c[i]差值最少，就標記為i；
          （3）對於所有標記為i點，重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數；
          （4）重複(2)(3),直到所有c[i]值的變化小於給定閾值。

6. 優點：速度快，簡單
缺點：最終結果跟初始點選擇相關，容易陷入區域性最優，需直到k值

二、舉例

將上述四個藥片歸為兩類：

藍色為藥片，五角星為隨機選取的中心點，四個點到c1(1，1)的距離分別為0、1、3.61、5 ；四個點到c2（2，1）的距離為1、0、2.83、4.24；

得到第一個點為一類，第234個為第二類，再重新找中心點。

新的中心點：c1>>(1，1)； c2>>(11/3，8/3) 新的圖示如下：

完成分類，迭代停止。（停止條件：分類不變，或分類變化小於一個值，或指定迭代次數）

三、python實現

import numpy as np


def kmeans(x, k, maxIt):    # maxIt是迭代次數

    numPoints, numDim = x.shape     # 傳入的行數

    dataSet = np.zeros((numPoints, numDim + 1))       # 多新增一列，作為標記
    dataSet[:,:-1] = x      # 除了最後一列其他的和x一樣

    centroids = dataSet[np.random.randint(numPoints, size= k), :]    # 選出k個行數，作為中心點
    centroids[:, -1] = range(1, k+1)

    iterations = 0           # 第多少次迴圈
    oldCentroids = None     # 舊的中心點

    while not shouldstop(oldCentroids, centroids, iterations, maxIt):
        print("-" * 50)
        print("iteration: ", iterations)
        print("dataSet: \n", dataSet)
        print("centroids: \n", centroids)
        oldCentroids = np.copy(centroids)
        iterations += 1

        updataLabels(dataSet, centroids)      # 重新歸類label

        centroids = getCentroids(dataSet, k)     # 更新中心點

    return dataSet


def shouldstop(oldCentroids, centroids, iterations, maxIt):
    if iterations > maxIt:                              # 是否到預設迭代次數
        return True
    return np.array_equal(oldCentroids, centroids)      # 比較值中心點是否相等


def updataLabels(dataSet, centroids):

    numPoints, numDim = dataSet.shape
    for i in range(0, numPoints):       # 計算
        dataSet[i, -1] =  getLabelFromClosestCentroid(dataSet[i,:-1], centroids)    # 對比距離，返回最近中心點的標記


def getLabelFromClosestCentroid(dataSetRow, centroids):

    label = centroids[0, -1]
    minDist = np.linalg.norm(dataSetRow - centroids[0,:-1])     # 返回兩個向量的距離
    for i in range(1, centroids.shape[0]):
        dist = np.linalg.norm(dataSetRow - centroids[i,:-1])
        if dist < minDist:
            minDist = dist
            label = centroids[i, -1]
    print("minDistance: ", minDist)
    return label


def getCentroids(dataSet, k):
    result = np.zeros((k, dataSet.shape[1]))    # 初始化 shape[1] 為列數
    for i in range(1, k+1):                     # 將所有標籤相同的點找出來，求均值
        oneCluster = dataSet[dataSet[:, -1] == i, :-1]      # 等於某一列的所有標籤找出來
        result[i - 1, :-1] = np.mean(oneCluster, axis=0)    # 求均值，賦到除了最後一列的所有，axis=0 每一行所有列
        result[i - 1, -1] = i       # 賦標籤

    return result


x1 = np.array([1, 1])
x2 = np.array([2, 1])
x3 = np.array([4, 3])
x4 = np.array([5, 4])

testX = np.vstack((x1, x2, x3, x4))     # 將四個點堆成一個矩陣
result = kmeans(testX, 2, 10)

print("*" * 50)
print("final result:\n", result)

非監督學習—K-means演算法聚類學習筆記

非監督學習—K-means演算法聚類學習筆記

使用K-means演算法聚類灰度圖

Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）

機器學習--K-means演算法（聚類，無監督學習）

機器學習——K-means演算法（聚類演算法）

python_sklearn機器學習算法系列之K-Means(硬聚類演算法)

吳恩達機器學習 - 無監督學習——K-means演算法吳恩達機器學習 - 無監督學習——K-means演算法

機器學習實踐（十七）—sklearn之無監督學習-K-means演算法

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

K-means 和 K-medoids演算法聚類分析

K-means均值聚類演算法的原理與實現

無監督學習——K-means演算法

Python_sklearn機器學習庫學習筆記（五）k-means（聚類）

基於K-means Clustering聚類算法對電商商戶進行級別劃分(含Octave仿真)

K-均值（K-means）聚類算法

全面了解R語言中的k-means如何聚類？

機器學習--K-means演算法

TF-IDF + K-Means 中文聚類例子 - scala

機器學習——K-Means演算法

K-means 影象聚類

非監督學習—K-means演算法聚類學習筆記

相關推薦