14 聚類演算法 - 程式碼案例六- 譜聚類(SC)演算法案例

阿新 • • 發佈：2018-12-16

需求使用scikit的相關API建立模擬資料，然後使用譜聚類演算法進行資料聚類操作，並比較演算法在不同引數情況下的聚類效果。

常規操作：

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import sklearn.datasets as ds
import matplotlib.colors
import warnings
from sklearn.cluster import SpectralClustering#引入譜聚類
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import euclidean_distances

## 設定屬性防止中文亂碼及攔截異常資訊
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

warnings.filterwarnings('ignore', category=FutureWarning)

1、建立模擬資料

N = 1000
centers = [[1, 2], [-1, -1], [1, -1], [-1, 1]]
#符合高斯分佈的資料集
data1, y1 = ds.make_blobs(N, n_features=2, centers=centers, 
    cluster_std=(0.75,0.5,0.3,0.25), random_state=0)
data1 = StandardScaler().fit_transform(data1)
dist1 = euclidean_distances(data1, squared=True)

2、資料2 - 圓形資料集

t = np.arange(0, 2 * np.pi, 0.1)
data2_1 = np.vstack((np.cos(t), np.sin(t))).T
data2_2 = np.vstack((2*np.cos(t), 2*np.sin(t))).T
data2_3 = np.vstack((3*np.cos(t), 3*np.sin(t))).T
data2 = np.vstack((data2_1, data2_2, data2_3))
y2 = np.vstack(([0] * len(data2_1), [1] * len(data2_2), [2] * len(data2_3)))

datasets = [(data1, y1), (data2, y2.ravel())]

def expandBorder(a, b):
    d = (b - a) * 0.1
    return a-d, b+d

3、畫圖

colors = ['r', 'g', 'b', 'y']
cm = mpl.colors.ListedColormap(colors)

for i,(X, y) in enumerate(datasets):
    x1_min, x2_min = np.min(X, axis=0)
    x1_max, x2_max = np.max(X, axis=0)
    x1_min, x1_max = expandBorder(x1_min, x1_max)
    x2_min, x2_max = expandBorder(x2_min, x2_max)
    n_clusters = len(np.unique(y))
    plt.figure(figsize=(12, 8), facecolor='w')
    plt.suptitle(u'譜聚類--資料%d' % (i+1), fontsize=20)
    plt.subplots_adjust(top=0.9,hspace=0.35)

    #譜聚類的建模
    gamma_list = [0.1,5,10]
    nclusters = [4,3]
    for i, ncluster in enumerate(nclusters):
        for j,gamma_value in enumerate(gamma_list):
            spectral = SpectralClustering(n_clusters=ncluster,
                gamma = gamma_value, affinity='laplacian',assign_labels='kmeans')
            y_hat = spectral.fit_predict(X)
            unique_y_hat = np.unique(y_hat)


            ## 開始畫圖
            plt.subplot(2,3,j+1)
            for k, col in zip(unique_y_hat, colors):
                cur = (y_hat == k)
                plt.scatter(X[cur, 0], X[cur, 1], s=40, c=col, edgecolors='k')
            plt.xlim((x1_min, x1_max))
            plt.ylim((x2_min, x2_max))
            plt.grid(True)
            plt.title('$\gamma$ = %.2f ，聚類簇數目：%d' % (gamma_value, n_clusters), 
                fontsize=16)

    plt.subplot(234)
    plt.scatter(X[:, 0], X[:,1], c=y, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.title('原始資料，聚類簇數目:%d' % len(np.unique(y)))
    plt.grid(True)
    plt.show()

14 聚類演算法 - 程式碼案例六- 譜聚類(SC)演算法案例

13 聚類演算法 - 譜聚類需求使用scikit的相關API建立模擬資料，然後使用譜聚類演算法進行資料聚類操作，並比較演算法在不同引數情況下的聚類效果。相關API：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.

經典演算法題——第六題協同推薦SlopeOne 演算法

相信大家對如下的Category都很熟悉，很多網站都有類似如下的功能，“商品推薦”,"猜你喜歡“，在實體店中我們有導購來為我們服務，在網路上我們需要同樣的一種替代物，如果簡簡單單的在資料庫裡面去撈，去比較，幾乎是完成不了的,這時我們就需要一種協同推薦演算法，來高效的推

譜聚類演算法及其程式碼（Spectral Clustering）

簡介文章將介紹譜聚類（spectral clustering）的基本演算法，以及在matlab下的程式碼實現。介紹內容將包括：從圖分割角度直觀理解譜聚類譜聚類演算法步驟資料以及實現程式碼本文將不會涉及細節化的證明和推導，如有興趣可參考july大

譜聚類演算法入門教程（三）—— 求f^TLf的最小值

在上一篇部落格中，我們知道目標函式變為 argmin⁡f∈R6fTLfarg \min \limits_{f \in \R^6} f^TLfargf∈R6minfTLf，即找到一個fff，使得 fTLff^TLffTLf 取得最小值這篇部落格將通過求導的方

機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼

機器學習之混合高斯模型聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括：

基於譜聚類SM演算法的協同過濾推薦演算法研究——清華師兄畢業論文學習

一、個性化推薦演算法 1.相似度的比較兩個商品或者商品之間相似的的計算方法，量化屬性為非數值型資料的商品或者使用者之間的接近程度。通常我們計算使用者或者專案間相似度的主要方法有餘弦相似度（Cosime Similarity）、Jaccard係數和pearson相關(pearson Corr

【無監督學習】5：譜聚類演算法原理介紹

前言：學習譜聚類，最好有一些圖論、矩陣分解（SVD）方面的知識，這樣會更加有利於譜聚類的學習。當然，譜聚類理解起來並不困難，實際操作也大多是譜聚類+K-means聚類聯合使用的。 –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-—

譜聚類演算法講解

什麼是譜聚類？聚類的直觀解釋是根據樣本間相似度，將它們分成不同組。譜聚類的思想是將樣本看作頂點，樣本間的相似度看作帶權的邊，從而將聚類問題轉為圖分割問題：找到一種圖分割的方法使得連線不同組的邊的權重儘可能低（這意味著組間相似度要儘可能低），組內的邊的權重儘可能高（這意

python機器學習案例系列教程——聚類演算法總結

全棧工程師開發手冊（作者：欒鵬）一、什麼是聚類？聚類（Clustering）：聚類是一個人們日常生活的常見行為，即所謂“物以類聚，人以群分”，核心的思想也就是聚類。人們總是不斷地改進下意識中的聚類模式來學習如何區分各個事物和人。

譜聚類演算法Matlab快速實現

%Ncut譜聚類完整函式定義（儲存為.m檔案）： function C = SpectralClustering(data,k,a) %data是資料點矩陣 K是聚類個數 a代表高斯核函式的引數 %UNTITLED Summary of this functio

譜聚類原理簡述（含實驗程式碼）

Spectral clustering(譜聚類) 是一種基於圖論的聚類方法，它能夠識別任意形狀的樣本空間並收斂於全域性最優解。其基本的思想是將樣本資料進行相似性計算得到相似度矩陣，然後將相似矩陣轉換到Laplacian 矩陣 (拉普拉斯矩陣)，做 Laplacian 矩陣

瞭解 kmeans演算法和譜聚類演算法

譜聚類演算法不過真正要直觀地理解譜聚類，其實應該從物理的簡正模振動的角度來理解。你可以認為每兩個點之間都有一個彈簧連著，把兩個點之間的相似度理解為它們的彈簧係數，每個特徵向量就是這個系統的運動

聚類——譜聚類演算法以及Python實現

譜聚類(spectral cluster)可以視為一種改進的Kmeans的聚類演算法。常用來進行影象分割。缺點是需要指定簇的個數，難以構建合適的相似度矩陣。優點是簡單易實現。相比Kmeans而言，處理高維資料更合適。核心思想構建樣本點的相似度矩陣(圖

機器學習筆記六：K-Means聚類，層次聚類，譜聚類

前面的筆記搞了那麼多的數學，這篇來一點輕鬆的，提前適應一下除了監督問題以外的非監督學習。這篇筆記有沒有前面那麼多的數學了，要講的聚類算是無監督的學習方式。一.一般問題聚類分析的目標是,建立滿足於同一組內的物件相似,不同組的物件相異的物件分組.它作為一種無

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

一、原理使用jieba切詞用td-idf計算文字的詞頻和逆文件詞頻排序選出最重要的2個或3個詞作為這段文字的id 具有相同id的文字被歸為一類二、使用python實現簡單的文字聚類，其中使用了tf-idf演算法，jieba分詞，把相似的文字聚合在

完整的最簡單的譜聚類python程式碼

針對karate_club資料集，做了譜聚類。由於是2-way clustering，比較簡單，得到了圖的新的表示空間之後，沒有做k-means，僅僅針對正規化後的拉普拉斯矩陣的第二特徵值做了符號判斷，這和 Spectral Clustering Tutorial 一

譜聚類演算法(Spectral Clustering)

譜聚類(Spectral Clustering, SC)是一種基於圖論的聚類方法——將帶權無向圖劃分為兩個或兩個以上的最優子圖，使子圖內部儘量相似，而子圖間距離儘量距離較遠，以達到常見的聚類的目的。其中的最優是指最優目標函式不同，可以是割邊最小分割——如圖1的Smallest cut(如後文的M

譜聚類演算法 matlab

1、譜聚類演算法步驟公式（1）整理資料集，使資料集中資料在0-1之間。假設資料集m行n列。（2）求鄰接矩陣W。元素值為每一點到其他點之間距離，即權重。（3）求相似度矩陣S，相似度矩陣的定義。相似度矩陣由權值矩陣得到，實踐中一般用高斯核函式（也稱徑向基

譜聚類演算法(Spectral Clustering)優化與擴充套件

譜聚類(Spectral Clustering, SC)在前面的博文中已經詳述，是一種基於圖論的聚類方法，簡單形象且理論基礎充分，在社交網路中廣泛應用。本文將講述進一步擴充套件其應用場景:首先是User-Item協同聚類，即spectral coclustering，之後再詳述譜聚類的進一步優化。

14 聚類演算法 - 程式碼案例六- 譜聚類(SC)演算法案例

常規操作：

1、建立模擬資料

2、 資料2 - 圓形資料集

3、畫圖

相關推薦

2、資料2 - 圓形資料集