簡單易學的機器學習演算法——Mean Shift聚類演算法

阿新 • • 發佈：2022-05-04

一、Mean Shift演算法概述

Mean Shift演算法，又稱為均值漂移演算法，Mean Shift的概念最早是由Fukunage在1975年提出的，在後來由Yizong Cheng對其進行擴充，主要提出了兩點的改進：

定義了核函式；
增加了權重係數。

核函式的定義使得偏移值對偏移向量的貢獻隨之樣本與被偏移點的距離的不同而不同。權重係數使得不同樣本的權重不同。Mean Shift演算法在聚類，影象平滑、分割以及視訊跟蹤等方面有廣泛的應用。

二、Mean Shift演算法的核心原理

2.1、核函式

上圖的畫圖指令碼如下所示：

'''
Date:201604026
@author: zhaozhiyong
'''
import matplotlib.pyplot as plt
import math

def cal_Gaussian(x, h=1):
    molecule = x * x
    denominator = 2 * h * h
    left = 1 / (math.sqrt(2 * math.pi) * h)
    return left * math.exp(-molecule / denominator)

x = []

for i in xrange(-40,40):
    x.append(i * 0.5);

score_1 = []
score_2 = []
score_3 = []
score_4 = []

for i in x:
    score_1.append(cal_Gaussian(i,1))
    score_2.append(cal_Gaussian(i,2))
    score_3.append(cal_Gaussian(i,3))
    score_4.append(cal_Gaussian(i,4))

plt.plot(x, score_1, 'b--', label="h=1")
plt.plot(x, score_2, 'k--', label="h=2")
plt.plot(x, score_3, 'g--', label="h=3")
plt.plot(x, score_4, 'r--', label="h=4")

plt.legend(loc="upper right")
plt.xlabel("x")
plt.ylabel("N")
plt.show()

2.2、Mean Shift演算法的核心思想

2.2.1、基本原理

對於Mean Shift演算法，是一個迭代的步驟，即先算出當前點的偏移均值，將該點移動到此偏移均值，然後以此為新的起始點，繼續移動，直到滿足最終的條件。此過程可由下圖的過程進行說明(圖片來自參考文獻3)：

步驟1：在指定的區域內計算偏移均值(如下圖的黃色的圈)

步驟2：移動該點到偏移均值點處

步驟3：重複上述的過程(計算新的偏移均值，移動)

步驟4：滿足了最終的條件，即退出

從上述過程可以看出，在Mean Shift演算法中，最關鍵的就是計算每個點的偏移均值，然後根據新計算的偏移均值更新點的位置。

2.2.2、基本的Mean Shift向量形式

2.2.3、改進的Mean Shift向量形式

2.3、Mean Shift演算法的解釋

在Mean Shift演算法中，實際上是利用了概率密度，求得概率密度的區域性最優解。

2.3.1、概率密度梯度

2.3.2、Mean Shift向量的修正

2.4、Mean Shift演算法流程

三、實驗

3.1、實驗資料

實驗資料如下圖所示(來自參考文獻1)：

畫圖的程式碼如下：

'''
Date:20160426
@author: zhaozhiyong
'''
import matplotlib.pyplot as plt

f = open("data")
x = []
y = []
for line in f.readlines():
    lines = line.strip().split("t")
    if len(lines) == 2:
        x.append(float(lines[0]))
        y.append(float(lines[1]))
f.close()  

plt.plot(x, y, 'b.', label="original data")
plt.title('Mean Shift')
plt.legend(loc="upper right")
plt.show()

3.2、實驗的原始碼

#!/bin/python
#coding:UTF-8
'''
Date:20160426
@author: zhaozhiyong
'''

import math
import sys
import numpy as np

MIN_DISTANCE = 0.000001#mini error

def load_data(path, feature_num=2):
    f = open(path)
    data = []
    for line in f.readlines():
        lines = line.strip().split("t")
        data_tmp = []
        if len(lines) != feature_num:
            continue
        for i in xrange(feature_num):
            data_tmp.append(float(lines[i]))

        data.append(data_tmp)
    f.close()
    return data

def gaussian_kernel(distance, bandwidth):
    m = np.shape(distance)[0]
    right = np.mat(np.zeros((m, 1)))
    for i in xrange(m):
        right[i, 0] = (-0.5 * distance[i] * distance[i].T) / (bandwidth * bandwidth)
        right[i, 0] = np.exp(right[i, 0])
    left = 1 / (bandwidth * math.sqrt(2 * math.pi))

    gaussian_val = left * right
    return gaussian_val

def shift_point(point, points, kernel_bandwidth):
    points = np.mat(points)
    m,n = np.shape(points)
    #計算距離
    point_distances = np.mat(np.zeros((m,1)))
    for i in xrange(m):
        point_distances[i, 0] = np.sqrt((point - points[i]) * (point - points[i]).T)

    #計算高斯核      
    point_weights = gaussian_kernel(point_distances, kernel_bandwidth)

    #計算分母
    all = 0.0
    for i in xrange(m):
        all += point_weights[i, 0]

    #均值偏移
    point_shifted = point_weights.T * points / all
    return point_shifted

def euclidean_dist(pointA, pointB):
    #計算pointA和pointB之間的歐式距離
    total = (pointA - pointB) * (pointA - pointB).T
    return math.sqrt(total)

def distance_to_group(point, group):
    min_distance = 10000.0
    for pt in group:
        dist = euclidean_dist(point, pt)
        if dist < min_distance:
            min_distance = dist
    return min_distance

def group_points(mean_shift_points):
    group_assignment = []
    m,n = np.shape(mean_shift_points)
    index = 0
    index_dict = {}
    for i in xrange(m):
        item = []
        for j in xrange(n):
            item.append(str(("%5.2f" % mean_shift_points[i, j])))

        item_1 = "_".join(item)
        print item_1
        if item_1 not in index_dict:
            index_dict[item_1] = index
            index += 1

    for i in xrange(m):
        item = []
                for j in xrange(n):
                        item.append(str(("%5.2f" % mean_shift_points[i, j])))

                item_1 = "_".join(item)
        group_assignment.append(index_dict[item_1])

    return group_assignment

def train_mean_shift(points, kenel_bandwidth=2):
    #shift_points = np.array(points)
    mean_shift_points = np.mat(points)
    max_min_dist = 1
    iter = 0
    m, n = np.shape(mean_shift_points)
    need_shift = [True] * m

    #cal the mean shift vector
    while max_min_dist > MIN_DISTANCE:
        max_min_dist = 0
        iter += 1
        print "iter : " + str(iter)
        for i in range(0, m):
            #判斷每一個樣本點是否需要計算偏置均值
            if not need_shift[i]:
                continue
            p_new = mean_shift_points[i]
            p_new_start = p_new
            p_new = shift_point(p_new, points, kenel_bandwidth)
            dist = euclidean_dist(p_new, p_new_start)

            if dist > max_min_dist:#record the max in all points
                max_min_dist = dist
            if dist < MIN_DISTANCE:#no need to move
                need_shift[i] = False

            mean_shift_points[i] = p_new
    #計算最終的group
    group = group_points(mean_shift_points)

    return np.mat(points), mean_shift_points, group

if __name__ == "__main__":
    #匯入資料集
    path = "./data"
    data = load_data(path, 2)

    #訓練，h=2
    points, shift_points, cluster = train_mean_shift(data, 2)

    for i in xrange(len(cluster)):
        print "%5.2f,%5.2ft%5.2f,%5.2ft%i" % (points[i,0], points[i, 1], shift_points[i, 0], shift_points[i, 1], cluster[i])

3.3、實驗的結果

經過Mean Shift演算法聚類後的資料如下所示：

'''
Date:20160426
@author: zhaozhiyong
'''
import matplotlib.pyplot as plt

f = open("data_mean")
cluster_x_0 = []
cluster_x_1 = []
cluster_x_2 = []
cluster_y_0 = []
cluster_y_1 = []
cluster_y_2 = []
center_x = []
center_y = []
center_dict = {}

for line in f.readlines():
    lines = line.strip().split("t")
    if len(lines) == 3:
        label = int(lines[2])
        if label == 0:
            data_1 = lines[0].strip().split(",")
            cluster_x_0.append(float(data_1[0]))
            cluster_y_0.append(float(data_1[1]))
            if label not in center_dict:
                center_dict[label] = 1
                data_2 = lines[1].strip().split(",")
                center_x.append(float(data_2[0]))
                center_y.append(float(data_2[1]))
        elif label == 1:
            data_1 = lines[0].strip().split(",")
            cluster_x_1.append(float(data_1[0]))
            cluster_y_1.append(float(data_1[1]))
            if label not in center_dict:
                center_dict[label] = 1
                data_2 = lines[1].strip().split(",")
                center_x.append(float(data_2[0]))
                center_y.append(float(data_2[1]))
        else:
            data_1 = lines[0].strip().split(",")
            cluster_x_2.append(float(data_1[0]))
            cluster_y_2.append(float(data_1[1]))
            if label not in center_dict:
                center_dict[label] = 1
                data_2 = lines[1].strip().split(",")
                center_x.append(float(data_2[0]))
                center_y.append(float(data_2[1]))    
f.close()


plt.plot(cluster_x_0, cluster_y_0, 'b.', label="cluster_0")
plt.plot(cluster_x_1, cluster_y_1, 'g.', label="cluster_1")
plt.plot(cluster_x_2, cluster_y_2, 'k.', label="cluster_2")
plt.plot(center_x, center_y, 'r+', label="mean point")
plt.title('Mean Shift 2')
#plt.legend(loc="best")
plt.show()

參考文獻

簡單易學的機器學習演算法——Mean Shift聚類演算法

一、Mean Shift演算法概述 Mean Shift演算法，又稱為均值漂移演算法，Mean Shift的概念最早是由Fukunage在1975年提出的，在後來由Yizong Cheng對其進行擴充，主要提出了兩點的改進：

python實現mean-shift聚類演算法

本文例項為大家分享了python實現mean-shift聚類演算法的具體程式碼，供大家參考，具體內容如下

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

【MindSpore:跟著小Mi一起機器學習吧！】聚類演算法

一週未見，甚是想念！今天小Mi帶大家學習聚類演算法！也就是主流的監督學習演算法我們已經學完了，本期我們開始接觸無監督學習演算法。廢話不多說，跟著小Mi開始學習吧~

機器學習實戰---K均值聚類演演算法

一：一般K均值聚類演演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

技術標籤：統計學習方法演算法聚類python機器學習層次聚類聚合/分裂演算法 import numpy as np

機器學習Sklearn系列：（五）聚類演算法

本文詳細的介紹了幾種常見的聚類演算法。 K-means 原理首先隨機選擇k個初始點作為質心

圖解機器學習 | 聚類演算法詳解

python機器學習——kmeans聚類演算法

背景與原理：聚類問題與分類問題有一定的區別，分類問題是對每個訓練資料，我給定了類別的標籤，現在想要訓練一個模型使得對於測試資料能輸出正確的類別標籤，更多見於監督學習；而聚類問題則是我們給出了一組資料，

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件

大資料機器學習（四）K-近鄰演算法

K-近鄰演算法（K-nearest neighbor，KNN）實質：找k個最近的鄰居，人多取勝（問題是k值該取多少怎麼確定）三個基本要素：

機器學習-樸素貝葉斯分類演算法（java，判斷西瓜好壞案例）

技術標籤：機器學習java演算法概率論和高中數學都學習過貝葉斯公式來計算條件概率，A發生下B傳送的概率這種題，比較熟悉。樸素貝葉斯分類演算法或許和這個有點關係吧…

機器學習筆記之python實現AdaBoost演算法

\'\'\' 資料集：Mnist 訓練集數量：60000(實際使用：10000) 測試集數量：10000（實際使用：1000)

最簡單的機器學習模型搭建——線性迴歸（基於Pytorch和Python 3.7）

技術標籤：神經網路網路深度學習python機器學習構建資料集這裡使用的是torch.rand()函式構建資料集建立一個

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

3 梯度下降：重要引數max_iter 3.1 梯度下降求解邏輯迴歸 3.2 梯度下降的概念與解惑

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

1 SVC處理多分類問題：重要引數decision_function_shape 2 SVM的模型複雜度 3 SVM中的隨機性：引數random_state

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

1 多元線性迴歸的基本原理 2 最小二乘法求解多元線性迴歸的引數 https://en.wikipedia.org/wiki/Matrix_calculus

機器學習sklearn（76）：演算法例項（三十三）迴歸（五）線性迴歸大家族（三）迴歸類的模型評估指標

0 簡介 1 是否預測了正確的數值 from sklearn.metrics import mean_squared_error as MSE MSE(yhat,Ytest) y.max()

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

1 最熟悉的陌生人：多重共線性逆矩陣存在的充分必要條件行列式不為0的充分必要條件

簡單易學的機器學習演算法——Mean Shift聚類演算法

一、Mean Shift演算法概述

二、Mean Shift演算法的核心原理

2.1、核函式

2.2、Mean Shift演算法的核心思想

2.2.1、基本原理

2.2.2、基本的Mean Shift向量形式

2.2.3、改進的Mean Shift向量形式

2.3、Mean Shift演算法的解釋

2.3.1、概率密度梯度

2.3.2、Mean Shift向量的修正

2.4、Mean Shift演算法流程

三、實驗

3.1、實驗資料

3.2、實驗的原始碼

3.3、實驗的結果

參考文獻

相關推薦