k-medoid(k中心點)聚類演算法Python實現

阿新 • • 發佈：2018-12-24

k-means演算法有個很大的缺點，就是對孤立點敏感性太高，孤立點即是脫離群眾的點，與眾不同的點，即在顯示中與其他點不是抱在一團的點。

為了體現兩者的不同，我特意溫習了一下知識，在構造初始點的時候，自己定義加入了幾個孤立點，使用k-means演算法跑的效果如下：

一開始的所有點：（可以看出其他點是混在一起有許多分類的）

使用k-means演算法執行，定義3箇中心點：

可以看到，此時的確是被分成了三類，只不過兩個孤立點算在了一類

那麼試一下k中心點演算法，初始：

運算之後：

就這麼簡單，就驗證了k中心點演算法的優越之處

1.演算法理論

1.1 聚類

將物理或抽象物件的集合分成由類似的物件組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料物件的集合，這些物件與同一個簇中的物件彼此相似，與其他簇中的物件相異。

簡單的說，就是對於一組不知道分類標籤的資料，可以通過聚類演算法自動的把相似的資料劃分到同一個分類中。即聚類與分類的區別主要在於，聚類可以不必知道源資料的標籤資訊。

1.2 演算法描述

在K-means演算法執行過程中，可以通過隨機的方式選擇初始質心，也只有初始時通過隨機方式產生的質心才是實際需要聚簇集合的中心點，而後面通過不斷迭代產生的新的質心很可能並不是在聚簇中的點。如果某些異常點距離質心相對較大時，很可能導致重新計算得到的質心偏離了聚簇的真實中心。

這在我們上圖也可以看到這種情況。

借用百度百科的演算法步驟：

（1）隨機選擇k個代表物件作為初始的中心點

（2）指派每個剩餘物件給離它最近的中心點所代表的簇

（3）隨機地選擇一個非中心點物件y

（4）計算用y代替中心點x的總代價s

（5）如果s為負，則用可用y代替x，形成新的中心點

（6）重複(2)(3)(4)(5)，直到k箇中心點不再發生變化.

在網上看到一個例子，感覺過程還是挺清晰的。

2.程式碼運算例項

我在報告一開始已經將兩種演算法對比了一下效果，這裡就再試一下，不存在孤立點時候的k中心點演算法的表現：

依然是一個類，只要傳入初始點的個數要定義的中心點個數，便可以畫出一開始雜亂無序的圖和經過k中心點演算法訓練後的圖。首先看一下一開始的圖，我定義了一千個點：

可以看出的確是十分雜亂，接下來看看執行演算法後的效果：

不存在孤立點的情況，分出的效果與k-means演算法還是大致差不多，如下為k-means執行的效果：

都是差不多的三等分。

3.演算法學習心得

這次的實驗還是比較簡單的，在k-means演算法的基礎上，修改核心的中心點的劃分部分即可。

還是那句話，python作為一個工具，實在是太方便了。

附錄：python程式碼

# -*- coding: utf-8 -*-
# @Time    : 18-12-6
# @Author  : lin

from sklearn.datasets import make_blobs
from matplotlib import pyplot
import numpy as np
import random


class KMeans():
    """
    實現簡單的k-means演算法
    """
    def __init__(self, n_points, k_num_center):
        self.n_points = n_points
        self.k_num_center = k_num_center
        self.data = None

    def get_test_data(self):
        """
        產生測試資料, n_samples表示多少個點, n_features表示幾維, centers
        得到的data是n個點各自座標
        target是每個座標的分類比如說我規定好四個分類，target長度為n範圍為0-3，主要是畫圖顏色區別
        :return: none
        """
        self.data, target = make_blobs(n_samples=self.n_points, n_features=2, centers=self.n_points)
        np.put(self.data, [self.n_points, 0], 500, mode='clip')
        np.put(self.data, [self.n_points, 1], 500, mode='clip')
        pyplot.scatter(self.data[:, 0], self.data[:, 1], c=target)
        # 畫圖
        pyplot.show()

    def ou_distance(self, x, y):
        # 定義歐式距離的計算
        return np.sqrt(sum(np.square(x - y)))

    def run_k_center(self, func_of_dis):
        """
        選定好距離公式開始進行訓練
        :param func_of_dis:
        :return:
        """
        print('初始化', self.k_num_center, '箇中心點')
        indexs = list(range(len(self.data)))
        random.shuffle(indexs)  # 隨機選擇質心
        init_centroids_index = indexs[:self.k_num_center]
        centroids = self.data[init_centroids_index, :]   # 初始中心點
        # 確定種類編號
        levels = list(range(self.k_num_center))
        print('開始迭代')
        sample_target = []
        if_stop = False
        while(not if_stop):
            if_stop = True
            classify_points = [[centroid] for centroid in centroids]
            sample_target = []
            # 遍歷資料
            for sample in self.data:
                # 計算距離，由距離該資料最近的核心，確定該點所屬類別
                distances = [func_of_dis(sample, centroid) for centroid in centroids]
                cur_level = np.argmin(distances)
                sample_target.append(cur_level)
                # 統計，方便迭代完成後重新計算中間點
                classify_points[cur_level].append(sample)
            # 重新劃分質心
            for i in range(self.k_num_center):  # 幾類中分別尋找一個最優點
                distances = [func_of_dis(point_1, centroids[i]) for point_1 in classify_points[i]]
                now_distances = sum(distances)   # 首先計算出現在中心點和其他所有點的距離總和
                for point in classify_points[i]:
                    distances = [func_of_dis(point_1, point) for point_1 in classify_points[i]]
                    new_distance = sum(distances)
                    # 計算出該聚簇中各個點與其他所有點的總和，若是有小於當前中心點的距離總和的，中心點去掉
                    if new_distance < now_distances:
                        now_distances = new_distance
                        centroids[i] = point    # 換成該點
                        if_stop = False
        print('結束')
        return sample_target

    def run(self):
        """
        先獲得資料，由傳入引數得到雜亂的n個點，然後由這n個點，分為m個類
        :return:
        """
        self.get_test_data()
        predict = self.run_k_center(self.ou_distance)
        pyplot.scatter(self.data[:, 0], self.data[:, 1], c=predict)
        pyplot.show()


test_one = KMeans(n_points=1000, k_num_center=3)
test_one.run()

k-medoid(k中心點)聚類演算法Python實現

k-means演算法有個很大的缺點，就是對孤立點敏感性太高，孤立點即是脫離群眾的點，與眾不同的點，即在顯示中與其他點不是抱在一團的點。為了體現兩者的不同，我特意溫習了一下知識，在構造初始點的時候，自己定義加入了幾個孤立點，使用k-means演算法跑的效果如下：一開始的所有點：（可以看出其

K-中心點聚類演算法（K-Medoide）

K-中心點演算法也是一種常用的聚類演算法，K-中心點聚類的基本思想和K-Means的思想相同，實質上是對K-means演算法的優化和改進。在K-means中，異常資料對其的演算法過程會有較大的影響。在K-means演算法執行過程中，可以通過隨機的方式選擇初始質心，也只有初始

K-means和PAM聚類演算法Python實現及對比

K-means（K均值劃分）聚類：簡單的說，一般流程如下：先隨機選取k個點，將每個點分配給它們，得到最初的k個分類；在每個分類中計算均值，將點重新分配，劃歸到最近的中心點；重複上述步驟直到點的劃歸不再改變。下圖是K-means方法的示意。 PAM

聚類演算法——python實現SOM演算法

演算法簡介 SOM網路是一種競爭學習型的無監督神經網路，將高維空間中相似的樣本點對映到網路輸出層中的鄰近神經元。訓練過程簡述：在接收到訓練樣本後，每個輸出層神經元會計算該樣本與自身攜帶的權向量之間的距離，距離最近的神經元成為競爭獲勝者，稱為最佳匹配單元。然

ML: 聚類算法R包-K中心點聚類

logs lib str ini rac 缺點 criterion spa mea K-medodis與K-means比較相似，但是K-medoids和K-means是有區別的，不一樣的地方在於中心點的選取，在K-means中，我們將中心點取為當前clust

python機器學習案例系列教程——k均值聚類、k中心點聚類

上一篇我們學習了層次聚類。層次聚類只是迭代的把最相近的兩個聚類匹配起來。並沒有給出能給出多少的分組。今天我們來研究一個K均值聚類。就是給定分組數目的基礎上再來聚類。即將所有的樣本資料集分成K個組，每個組內儘可能相似，每個組間又儘可能不相似。 k均值聚類和k

K-menas聚類演算法C++實現

基本介紹： k-means 演算法接受輸入量 k ；然後將n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得一個“中心物件”（引力中心）來進行計算的。工作過程：　　k-m

python K-Means聚類演算法的實現

K-Means 簡介聚類演算法有很多種（幾十種），K-Means是聚類演算法中的最常用的一種，演算法最大的特點是簡單，好理解，運算速度快，但是一定要在聚類前需要手工指定要分成幾類。具體實現步驟如下：給定n個訓練樣本{x1，x2，x3，…，xn} 　

模糊C均值聚類演算法及實現

模糊C均值聚類演算法的實現研究背景 https://blog.csdn.net/liu_xiao_cheng/article/details/50471981 聚類分析是多元統計分析的一種，也是無監督模式識別的一個重要分支，在模式分類影象處理和模糊

層次聚類演算法java實現

public class Node { String nodeName; // 樣本點名 Cluster cluster; // 樣本點所屬類簇 private double dimension[]; // 樣本點的維度 public Node(){ } publ

EM聚類演算法matlab實現

最近看到了樸素貝葉斯定理，看著看著就看到了em聚類的演算法中（K-means聚類的原型）。動手自己編個程式： %EM algorithm clc; clear; sigma = 1.5; miu1 = 3; miu2 = 7; N = 1000; x = zeros(1

DBSCAN聚類演算法的實現

設有N個樣本，樣本為p維，（1）計算距離矩陣D，時間複雜度為O(N*N*p)；（2）對距離矩陣的每一行進行從小到大排序，得到SD（sorted D），時間複雜度為O(N*N*log(N)); （3）根據Eps與MinPts，標註核心點、邊界點和噪聲點。首先比較SD（：

NLP——Kmeans聚類演算法簡單實現

本例中主要是對二維點進行距離計算，開始得時候選取兩個心，最終聚為兩簇。結束條件的判斷有很多種，這裡採用的是最簡單的：當兩個心不再變化了，則停止聚類。內部距離和可以不需要計算，這裡輸出來做結果評估用。 public class Km_w2 { //初始

Crawler/ML：爬蟲技術(基於urllib.request庫從網頁獲取圖片)+HierarchicalClustering層次聚類演算法，實現自動從網頁獲取圖片然後根據圖片色調自動分類

網上教程太囉嗦，本人最討厭一大堆沒用的廢話，直接上，就是幹！網路爬蟲？非監督學習？只有兩步，只有兩個步驟？ Are you kidding me？ Are you ok? 來吧，follow me, come on! 一、爬蟲下載圖片第一步：首先，我們從網

DBScan聚類演算法Java實現

DBScan演算法流程圖演算法：DBScan，基於密度的聚類演算法輸入： D：一個包含n個數據的資料集 r：半徑引數 minPts：領域密度閾值輸出：基於密度的聚類集合標記D中所有的點為unvisted for each p i

DBSCAN聚類演算法C++實現

1 #include "ClusterAnalysis.h" 2 #include <fstream> 3 #include <iosfwd> 4 #include <math.h> 5 6 /* 7 函式：聚類初始化操作 8 說明：將資

層次聚類演算法及其實現

層次聚類演算法分為合併演算法和分裂演算法。合併演算法會在每一步減少聚類中心的數量，聚類產生的結果來自前一步的兩個聚類的合併；分裂演算法與合併演算法原理相反，在每一步增加聚類的數量，每一步聚類產生的

模糊C均值聚類演算法的實現

模糊C均值聚類演算法的實現研究背景聚類分析是多元統計分析的一種，也是無監督模式識別的一個重要分支，在模式分類影象處理和模糊規則處理等眾多領域中獲得最廣泛的應用。它把一個沒有類別標記的樣本按照某種準則劃分為若干子集，使相似的樣本

Kmeans 聚類及其python實現

main chang pen wid matplot ret 步驟 -- name 主要參考 K-means 聚類算法及 python 代碼實現還有《機器學習實戰》這本書，當然前面那個鏈接的也是參考這本書，懂原理，會用就行了。 1、概述 K-means 算

kMeans聚類的python實現

from numpy import * import matplotlib.pyplot as plt #輔助函式 #載入資料集 def loadDataSet(filename): dataMat = [] f = open(filename

k-medoid(k中心點)聚類演算法Python實現

相關推薦