聚類演算法之K-means演算法

阿新 • • 發佈：2019-01-16

關注微信公眾號【Microstrong】,我寫過四年Android程式碼，瞭解前端、熟悉後臺，現在研究方向是機器學習、深度學習！一起來學習，一起來進步，一起來交流吧！

本文同步更新在我的微信公眾號裡，地址：https://mp.weixin.qq.com/s?__biz=MzI5NDMzMjY1MA==&mid=2247483987&idx=1&sn=6df96c39e5c1c055a6823c09afea354e&chksm=ec6533d6db12bac05efa7229f4812ae773f80d2970f023506c96fb0bab8e7949df5bb207a7a8&scene=0#rd

傑卡德相似係數可以這麼理解：情景一：A代表對某個使用者的推薦購物列表，B表示使用者自己心目中喜歡的商品列表，現在我們要計算A集合和B集合的相似度，就用到了傑卡德相似係數。情景二：A表示的是A使用者喜歡電影的列表，B表示B使用者喜歡電影的列表。假如前一段時間《前任3》很火，A和B的列表裡面都有，這個不能說明問題。但是同時發現A和B的列表裡面還有其他比較冷門的電影，那麼我們可以發現A和B的相似性突然增大了。傑卡德相似係數還可以用在降低熱門商品，提高冷門商品的推薦上。

（3）餘弦相似度（cosine similarity）

理解：求A點和B點的相似度，我們可以直接求A點到B點的距離。也可以求A點到原點和B點到原點的Cosθ的值。

（4） Pearson相似係數

餘弦相似度與Pearson相似係數關係：

相關係數即X、y座標向量各自平移到原點後的夾角餘弦！這即解釋了為何文件間求距離使用夾角餘弦——因為這一物理量表徵了文件去均值化後的隨機向量間相關係數。

（5）相對熵（K-L距離）

（6） Hellinger距離

當α=0時候，我們做如下計算：

該距離滿足三角不等式，是對稱、非負距離。

（三）K-means演算法

（1）聚類的基本思想

給定一個有N個物件的資料集，構造資料的K個簇，K<=n。滿足下列條件：

1. 每個簇至少包含一個物件。

2. 每一個物件屬於且僅屬於一個簇。

3. 將滿足上述條件的k個簇稱作一個合理劃分。

基本思想：對於給定的類別數目K,首先給出初始劃分，通過迭代改變樣本和簇的隸屬關係，使得每一次改進之後的劃分方案都較前一次好。

（2） K-means的基本演算法

學習完K-means演算法之後，我們來思考幾個問題？

1. K-means是能夠得到全域性最小值麼？

對k個初始質心的選擇比較敏感，容易陷入區域性最小值。

2. K-means一定收斂麼？

K-Means演算法一定收斂。資料集比較大時，收斂會比較慢。想了解詳細細節參考部落格：http://blog.csdn.net/u010161630/article/details/52585764

3. K-means的k個初始均值向量如何選擇呢？

對k個初始質心的選擇比較敏感，容易陷入區域性最小值。

改進：有人提出了另一個成為二分k均值（bisecting k-means）演算法，它對初始的k個質心的選擇就不太敏感。

4. K-means的k如何指定呢？

K值的選擇是使用者制定的，不同的k得到的結果會有挺大的不同。

改進：對k的選擇可以先用一些演算法分析資料的分佈，如重心和密度等，然後選擇合適的k。

（3）K-means的實現程式碼

from numpy import *
import xlrd
import matplotlib.pyplot as plt

# 計算歐氏距離
def euclDistance(vector1, vector2):
    '''
    :param vector1: 第j個均值向量
    :param vector2: 第i個樣本
    :return: 距離值
    '''
    return sqrt(sum(power(vector2 - vector1, 2)))


# init centroids with random samples
def initCentroids(dataSet, k):
    '''
    :param dataSet: 資料集
    :param k: 需要聚類的個數
    :return:  返回k個均值向量
    '''
    numSamples, dim = dataSet.shape
    centroids = zeros((k, dim))
    for i in range(k):
        index = int(random.uniform(0, numSamples))
        centroids[i, :] = dataSet[index, :]
    return centroids


# k-means cluster
def kmeans(dataSet, k):
    '''
    :param dataSet: 資料集
    :param k:  需要聚類的個數
    :return:
    '''
    # 樣本的個數
    numSamples = dataSet.shape[0]
    # 第一列儲存該樣本所屬的叢集
    # 第二列儲存此樣本與其質心之間的誤差
    clusterAssment = mat(zeros((numSamples, 2)))
    clusterChanged = True

    ## step 1:從資料集中隨機選擇k個樣本作為初始均值向量
    centroids = initCentroids(dataSet, k)

    while clusterChanged:
        clusterChanged = False
        ## 迴圈每一個樣本
        for i in range(numSamples):
            minDist = 100000.0  #存放最短的距離
            minIndex = 0     # 第i個樣本的簇標記
            ## 迴圈每一個均值向量
            ## step 2: 找到第i個樣本的最近的均值向量
            for j in range(k):
                distance = euclDistance(centroids[j, :], dataSet[i, :])
                if distance < minDist:
                    minDist = distance
                    minIndex = j

                    ## step 3: 更新第i個樣本的簇標記和誤差
            if clusterAssment[i, 0] != minIndex:
                clusterChanged = True
                clusterAssment[i, :] = minIndex, minDist ** 2

                ## step 4: 更新均值向量
        for j in range(k):
            pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]
            centroids[j, :] = mean(pointsInCluster, axis=0)

    print ('Congratulations, cluster complete!')
    return centroids, clusterAssment


# show your cluster only available with 2-D data
def showCluster(dataSet, k, centroids, clusterAssment):
    numSamples, dim = dataSet.shape
    if dim != 2:
        print ("Sorry! I can not draw because the dimension of your data is not 2!")
        return 1

    mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
    if k > len(mark):
        print ("Sorry! Your k is too large! please contact Zouxy")
        return 1

        # draw all samples
    for i in range(numSamples):
        markIndex = int(clusterAssment[i, 0])
        plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])

    mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
    # draw the centroids
    for i in range(k):
        plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize=12)
    plt.show()

def main():
    ## step 1: load data
    print ("step 1: load data...")
    dataSet = []
    data = xlrd.open_workbook('C:/Users/Microstrong/Desktop/watermelon4.0.xlsx')
    table = data.sheets()[0]
    for line in range(0,table.nrows):
        lineArr = table.row_values(line)
        dataSet.append([float(lineArr[0]), float(lineArr[1])])

    ## step 2: clustering...
    print ("step 2: clustering...")
    dataSet = mat(dataSet)
    k = 3
    centroids, clusterAssment = kmeans(dataSet, k)

    ## step 3: show the result
    print ("step 3: show the result...")
    showCluster(dataSet, k, centroids, clusterAssment)

if __name__ == '__main__':
 main()

具體的程式碼和資料集在我的gitHub中，資料集是周志華《機器學習》西瓜資料集4.0，地址：https://github.com/Microstrong0305/machine_learning/tree/master/K-means

（4）K-means演算法的缺點和改進

1. K-means將簇中所有點的均值作為新質心，若簇中含有異常點，將導致均值偏離嚴重。即對噪聲和孤立點資料比較敏感。

舉個例子：

陣列[1, 2, 3, 4, 100]的均值為22，顯然距離“大多數”資料1、2、3、4比較遠，若是改成求陣列的中位數3，在該例項中更為穩妥。這種聚類方式即K-Mediods聚類（K-中值聚類）。

2. 初值的選擇，對聚類結果有影響嗎？如何避免呢？

k-means是初值敏感的

圖（1）K-means初值選擇不合理情況

假如左圖中紅色的點為初始的均值向量，那麼聚類之後的結果可能為右圖中的結果。那麼聚類的結果肯定不是我們想要的結果。我們想要的結果肯定是圖（2）所示的結果。造成聚類結果不理想的原因是我們的均值向量初始化的時候沒有做好。那麼如何解決這種問題呢？

圖（2）理想的聚類結果

優化選初值的辦法：K-means++演算法

假如有50個樣本，做4個簇的聚類，u1的選擇肯定是從50個樣本中隨機選擇一個。那麼u2該如何選擇呢？我們用50個樣本中的每一個樣本對u1作距離計算，得到50個距離陣列。把這50個距離作為權重，我們算出權重概率，把權重概率高的那個距離對應的樣本初始為u2。那麼u2選擇完之後，我們如何選擇u3呢？我們再來把50個樣本對u1和u2做距離計算，如果樣本到u1的距離大於到u2的距離，更新距離數組裡對應的值；如果樣本到u1的距離小於到u2的距離，那麼距離數組裡對應的值保持不變。我們根據更新後的距離陣列來做權重概率，找出權重概率最高點的作為u3。那麼u4如何選擇呢？我們用u3、u2、u1分別對50個樣本作距離計算，找出最小距離值然後更新距離陣列，找到權重概率最大對應的點就是u4了。

思考一個問題：為什麼要更新距離陣列呢？

u3選擇時更新距離陣列是為了選擇u3的點要保證離u1和u2都要遠。u4是同樣的道理。

（5）K-means聚類演算法總結

1. 優點：

a.是解決聚類問題的一種經典演算法，簡單、快捷

b.對處理打資料集，該演算法保持可伸縮性和高效性

c.當簇近似為高斯分佈時，它的效果更好。

2. 缺點:

d.在簇的平均值可被定義的情況下才能使用，可能不適用於某些應用

e.必須事先給出K（要生成的簇的數目），而且對初值敏感，對於不同的初始值，可能會導致不同的結果。

f.不適合於發現非凸形狀的簇或者大小差別很大的簇

j.對噪聲和孤立點資料敏感

3.作用：可以作為其他聚類方法的基礎演算法，如譜聚類

聚類演算法之K-means演算法

目錄：

（一）聚類的定義

（二）相似度、距離計算方法總結

（三）K-means演算法

深入淺出聚類演算法之k-means演算法

聚類演算法之K-means演算法與聚類演算法衡量指標

聚類演算法之K-means演算法

聚類方法之k-mean演算法

資料探勘十大經典演算法之K-means 演算法

「AI科技」機器學習演算法之K-means演算法原理及缺點改進思路

大資料之資料探勘理論筆記聚類問題之K-means

聚類之K-means演算法

聚類演算法之k-medoids演算法

使用Orange進行資料探勘之聚類分析(2)------K-means

無監督學習之K-means演算法通俗教程

機器學習演算法之K-means-spark

機器學習經典演算法之K-Means

數學模型：3.非監督學習--聚類分析和K-means聚類

ml課程：聚類概述及K-means講解（含程式碼實現）

機器學習十大經典演算法之K-近鄰演算法（學習筆記）

資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

k均值演算法，k-means演算法原理

基於R語言的聚類分析（k-means,層次聚類）

【文字聚類】用k-means對文字進行聚類

聚類演算法之K-means演算法

目錄：

（一） 聚類的定義

（二） 相似度、距離計算方法總結

（三）K-means演算法

相關推薦

（一）聚類的定義

（二）相似度、距離計算方法總結