聚類——標籤傳播演算法以及Python實現

阿新 • • 發佈：2019-02-11

標籤傳播演算法(label propagation)是典型的半監督聚類演算法。半監督是指訓練資料集中小部分樣本點已知標籤，大部分樣本點未知標籤。

核心思想

相似性較大的樣本點間應該具有相同的標籤，將已知標籤通過相似性矩陣傳播到未知的標籤。

演算法簡介

基本概念

轉化矩陣：用來更新標籤，實質就是度量樣本點間相似性程度的矩陣(圖的邊的權重)。

Y_{i + 1} \leftarrow T Y_{i}

通常使用高斯徑向基以及k近鄰方法度量。
高斯徑向基計算兩樣本點間權重:

w_{i j} = e^{- \frac{{(x_{i} - x_{j})}^{2}}{σ^{2}}}

採用徑向基時，

σ

的影響非常大，且不好設定。一種啟發式的方法就是找到距離最近(

d_{0}

)的兩個不同標籤的樣本點(具體怎麼找可以使用Kruskal最小生成樹演算法),設定

σ > 3 d_{0} / \sqrt{2}

.因為這樣滿足

3 σ

準則，不同標籤樣本點間權重幾乎為0。
k近鄰方法計算兩樣本點間權重：

\begin{matrix} (1) & w_{i j} = {\begin{cases} \frac{1}{K} & j \in N_{i} \\ 0 & j \notin N_{i} \end{cases} \end{matrix}

其中，

N_{i}

為樣本i的K近鄰節點集合。
clamp:標籤矩陣更新過程中，原資料集中已知標籤樣本點的標籤不能改變，故需要將其”夾住”不讓其改變。

演算法流程

Input: 訓練資料集X_data，y_data(未知標籤的設為-1)，閾值epsilon, 最大迭代次數maxstep, 權值計算函式即相應引數

Output: 樣本標籤陣列
Step1: 計算轉換矩陣T。
Step2: 更新標籤，然後clamp。若標籤矩陣更新前後差異小於epsilon或超出迭代超出maxstep則終止。

程式碼

"""
標籤傳播聚類演算法, 典型的半監督學習演算法
核心思想：相似的資料應該具有相同的標籤，構建節點間的相似性矩陣（邊的權重）
"""
import numpy as np


class LablePropagation:
    def __init__(self, epsilon=1e-3, maxstep=500, kernel_option='rbf', sigma=1.0, k=10):
        self.epsilon = epsilon
        self.maxstep = maxstep
        self.kernel_option = kernel_option
        self.sigma = sigma  # rbf 核函式的引數 

        self.k = k  # knn 核函式引數

        self.T = None  # 未標記點間的轉換矩陣
        self.Y = None  # 標籤數矩陣
        self.Y_clamp = None  # 已知標籤資料點的標籤矩陣
        self.N = None
        self.labeled_inds = None  # 已知標籤樣本的索引
        self.labels = None

    def init_param(self, X_data, y_data):
        # 初始化引數
        self.N = X_data.shape[0]
        self.labeled_inds = np.where(y_data >= 0)[0]  # 未知標籤設為-1
        n_class = len(np.unique(y_data[self.labeled_inds]))

        self.Y = np.zeros((self.N, n_class))
        for i in self.labeled_inds:
            self.Y[i][int(y_data[i])] = 1.0   # 啞編碼，對應標籤設為1

        self.Y_clamp = self.Y[self.labeled_inds]  # n*l
        self.T = self.cal_tran_mat(X_data)  # n*n
        return

    def cal_dis2(self, node1, node2):
        # 計算節點間的歐式距離平方
        return (node1 - node2) @ (node1 - node2)

    def cal_tran_mat(self, data):
        # 計算轉換矩陣, 即構建圖
        dis_mat = np.zeros((self.N, self.N))
        for i in range(self.N):
            for j in range(i + 1, self.N):
                dis_mat[i, j] = self.cal_dis2(data[i], data[j])
                dis_mat[j, i] = dis_mat[i, j]

        if self.kernel_option == 'rbf':
            assert (self.sigma is not None)
            T = np.exp(-dis_mat / self.sigma ** 2)
            normalizer = T.sum(axis=0)
            T = T / normalizer
        elif self.kernel_option == 'knn':
            assert (self.k is not None)
            T = np.zeros((self.N, self.N))
            for i in range(self.N):
                inds = np.argpartition(dis_mat[i], self.k + 1)[:self.k + 1]
                T[i][inds] = 1.0 / self.k  # 最近的k個擁有相同的權重
                T[i][i] = 0
        else:
            raise ValueError('kernel is not supported')
        return T

    def fit(self, X_data, y_data):
        # 訓練主函式
        self.init_param(X_data, y_data)
        step = 0
        while step < self.maxstep:
            step += 1
            new_Y = self.T @ self.Y  # 更新標籤矩陣
            new_Y[self.labeled_inds] = self.Y_clamp  # clamp
            if np.abs(new_Y - self.Y).sum() < self.epsilon:
                break
            self.Y = new_Y
        self.labels = np.argmax(self.Y, axis=1)
        return


if __name__ == '__main__':
    from sklearn.datasets import make_circles

    n_samples = 100
    X, y = make_circles(n_samples=n_samples, shuffle=False)
    outer, inner = 0, 1
    labels = -np.ones(n_samples)
    labels[0] = outer
    labels[-1] = inner
    LPA = LablePropagation(maxstep=1000, kernel_option='knn', k=2, sigma=0.07)
    LPA.fit(X, labels)
    labels = LPA.labels

    import matplotlib.pyplot as plt


    def visualize(data, labels):
        color = 'bg'
        unique_label = np.unique(labels)
        for col, label in zip(color, unique_label):
            partial_data = data[np.where(labels == label)]
            plt.scatter(partial_data[:, 0], partial_data[:, 1], color=col, alpha=1)
        plt.scatter(data[0, 0], data[0, 1], color='b', marker='*', s=200, alpha=0.5)  # outer
        plt.scatter(data[-1, 0], data[-1, 1], color='g', marker='*', s=200, alpha=0.5)  # inner
        plt.show()
        return


    visualize(X, labels)

我的GitHub
注：如有不當之處，請指正。

聚類——標籤傳播演算法以及Python實現

標籤傳播演算法(label propagation)是典型的半監督聚類演算法。半監督是指訓練資料集中小部分樣本點已知標籤，大部分樣本點未知標籤。核心思想相似性較大的樣本點間應該具有相同的標籤，將已知標籤通過相似性矩陣傳播到未知的標籤。演算法簡

聚類——譜聚類演算法以及Python實現

譜聚類(spectral cluster)可以視為一種改進的Kmeans的聚類演算法。常用來進行影象分割。缺點是需要指定簇的個數，難以構建合適的相似度矩陣。優點是簡單易實現。相比Kmeans而言，處理高維資料更合適。核心思想構建樣本點的相似度矩陣(圖

聚類——MeanShift演算法以及Python實現

均值漂移演算法(MeanShift)是一種旨在發現團(blobs)的聚類演算法核心思想尋找核密度極值點並作為簇的質心，然後根據最近鄰原則將樣本點賦予質心演算法簡介核密度估計根據樣本分佈估計在樣本空間的每一點的密度。估計某點的密度時，核密度估計方法會考慮

第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 x def initcenter(x, k):#初始聚類中心陣列 return x[:k] kc = initcenter

第八次作業-----#聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

1. 用python實現K均值演算法 K-means是一個反覆迭代的過程，演算法分為四個步驟：（x,k,y) 1）選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心； def initcenter(x, k): kc 2）對於樣本中的資料物件，根據它們與這些聚類中心的歐氏距離，按距

關聯分析——Apriori演算法以及Python實現

Aprior演算法是比較經典的關聯規則挖掘演算法。核心思想核心就是先驗原理，即頻繁項集的子集必定是頻繁項集。反之，若子集非頻繁，則超集必定非頻繁。演算法簡介基本概念購物籃事務(transaction):一位顧客一次購買商品的記錄就

原型聚類（一）k均值演算法和python實現

原型聚類原型聚類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。這裡的“原型”我認為實際上就是“原來的模型”，這類演算法企圖模擬出生成資料集的模型。 k均值演算法（k-means

聚類之均值聚類（k-means）演算法的python實現

# -*- coding: UTF-8 -*- import numpy import random import codecs import copy import re import matplotlib.pyplot as plt def calcuDistance(vec1, vec2):

文字聚類演算法之一趟聚類（One-pass Cluster）演算法的python實現

一、演算法簡介一趟聚類演算法是由蔣盛益教授提出的無監督聚類演算法，該演算法具有高效、簡單的特點。資料集只需要遍歷一遍即可完成聚類。演算法對超球狀分佈的資料有良好的識別，對凸型資料分佈識別較差。一趟聚類可以在大規模資料，或者二次聚類中，或者聚類與其他演算法結合的情況下，發

人工神經網路——反向傳播演算法(BP)以及Python實現

人工神經網路是模擬生物神經系統的。神經元之間是通過軸突、樹突互相連線的，神經元收到刺激時，神經脈衝在神經元之間傳播，同時反覆的脈衝刺激，使得神經元之間的聯絡加強。受此啟發，人工神經網路中神經元之間的聯絡(權值)也是通過反覆的資料資訊"刺激"而得到調整的。而反向傳

標籤傳播演算法（LPA）Python實現

標籤傳播演算法（LPA）的做法比較簡單：第一步：為所有節點指定一個唯一的標籤；第二步：逐輪重新整理所有節點的標籤，直到達到收斂要求為止。對於每一輪重新整理，節點標籤重新整理的規則如下：

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

理論 k-means方法是一種常用的聚類方法，其目標是最小化其中是第i個簇的中心。直接優化上式有難度，故k-means演算法採用一種近似方法。簡單來說，k-means演算法由兩個步驟迴圈組成： 1. 計算每個sample到各個簇中心的距離，將該sample的類

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

今天我們一起來學習一下自然語言處理中的bm25演算法，bm25演算法是常見的用來計算query和文章相關度的相似度的。其實這個演算法的原理很簡單，就是將需要計算的query分詞成w1，w2，…，wn，然後求出每一個詞和文章的相關度，最後將這些相關度進行累加，最終就可以的得到文字相似度計算

反向傳播（BP演算法）python實現

反向傳播（BP演算法）python實現 1、BP演算法描述 BP演算法就是反向傳播，要輸入的資料經過一個前向傳播會得到一個輸出，但是由於權重的原因，所以其輸出會和你想要的輸出有差距，這個時候就需要進行反向傳播，利用梯度下降，對所有的權重進行更新，這樣的話在進行前向傳播就會發現其輸

決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現

演算法簡述在《統計學習方法》中，作者的if-then的描述，簡單一下子讓人理解了決策樹的基本概念。決策樹，就是一個if-then的過程。本文主要學習自《統計學習方法》一書，並努力通過書中數學推導來

PCA演算法的數學原理以及Python實現

部落格中的筆記：降維當然意味著資訊的丟失，不過鑑於實際資料本身常常存在的相關性，我們可以想辦法在降維的同時將資訊的損失儘量降低。根據相關性來講資訊的損失量降到最低更正式的說，向量(x,y)實際上表示線性組合： x(1,0)?+y(0,1)? 不難證明所有二

機器學習演算法之邏輯迴歸以及python實現

下面分為兩個部分： 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程邏輯迴歸(Logistic Regression) 首先需要說明，邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於，分類問題的輸出是離散

機器學習中優化演算法總結以及Python實現

機器學習演算法最終總是能轉化為最優化問題，習慣上會轉化為最小化問題。個人總結迭代優化演算法關鍵就兩點： (1) 找到下降方向 (2) 確定下降步長最速梯度下降演算法梯度下降演算法是以最優化函式的梯度為下降方向，學習率η\etaη乘以梯度的模即為下降步長。更

（二）k-means演算法原理以及python實現

一、有監督學習和無監督學習 1. 有監督學習監督學習（supervised learning）：通過已有的訓練樣本（即已知資料以及其對應的輸出）來訓練，從而得到一個最優模型，再利用這個模型將所有新的資料樣本對映為相應的輸出結果，對輸出結果進行簡單的判斷從而

排序演算法的Python實現以及時間分析

選擇排序首先，找到陣列中最小的那個元素，其次，將它和陣列的第一個元素交換位置（如果第一個元素就是最小元素那麼它就和自己交換）。再次，在剩下的元素中找到最小的元素，將它與陣列的第二個元素交換位置。如此往復，直到將整個陣列排序。這種方法叫做選擇排序，因為它在不斷地選擇

聚類——標籤傳播演算法以及Python實現

核心思想

演算法簡介

基本概念

演算法流程

程式碼

相關推薦