【Python例項第12講】譜系共聚類法

阿新 • • 發佈：2018-11-29

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）

這個例子演示如何產生一個數據集，並且用譜系共聚類法(Spectral Co-Clustering algorithm)對它進行雙向聚類。所謂“雙向聚類”，是指對變數和例項同時聚類。

這裡，使用函式make_biclusters產生雙向聚類的資料集。該函式產生的矩陣元素較小，但嵌入的雙向類bicluster具有較大的值。然後隨機重排矩陣的行和列，作為引數傳遞給演算法。再重新排列這個隨機重排的矩陣，使得biclusters鄰接。這樣一來就可以看出演算法的準確程度了。

例項詳解

首先，匯入必需的庫。

print(__doc__)

# Author: Kemal Eren <[email protected]>
# License: BSD 3 clause

import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_biclusters
from sklearn.datasets import samples_generator as sg
from sklearn.cluster.bicluster import SpectralCoclustering
from sklearn.metrics import consensus_score

呼叫函式make_biclusters, 產生一個300行，300列的資料陣列，該陣列有一個用於雙向聚類的固定對角塊結構。預置5個biclusters, 5個標準差的高斯誤差。作圖顯示產生的資料集。

data, rows, columns = make_biclusters(
    shape=(300, 300), n_clusters=5, noise=5,
    shuffle=False, random_state=0)

plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Original dataset")
plt.show()

在這裡插入圖片描述

隨機重排資料集。

data, row_idx, col_idx = sg._shuffle(data, random_state=0)
plt.matshow(data, cmap=plt.cm.Blues)
plt.title("Shuffled dataset")
plt.show()

在這裡插入圖片描述

呼叫bicluster庫的譜系共聚類函式SpectralCoclustering, 設定5個biclusters. 擬合模擬資料集，並計算聚類一致性分數，評價聚類效果。

model = SpectralCoclustering(n_clusters=5, random_state=0)
model.fit(data)
score = consensus_score(model.biclusters_,
                        (rows[:, row_idx], columns[:, col_idx]))

print("consensus score: {:.3f}".format(score))

consensus score: 1.000

視覺化重新排列共聚類後的資料集。

fit_data = data[np.argsort(model.row_labels_)]
fit_data = fit_data[:, np.argsort(model.column_labels_)]

plt.matshow(fit_data, cmap=plt.cm.Blues)
plt.title("After biclustering; rearranged to show biclusters")

plt.show()

在這裡插入圖片描述

閱讀更多精彩內容，請關注微信公眾號：統計學習與大資料

【Python例項第12講】譜系共聚類法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子演示如何產生一個數據集，並且用譜系共聚類法(Spectral Co-Clustering algorithm)對它進行雙向聚類。所謂“雙向聚類”，是指對變數和例項同時聚類。這裡，

【Python例項第8講】模型複雜度影響

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本講介紹模型複雜度怎樣影響預測精度和計算效能。我們使用的資料集仍然是波士頓房價資料集。對於模型的每一類，我們通過選擇有關的模型引數，度量計算效能和預測功效的影響，以此考察模型的複雜度。下面，我

【Python例項第7講】真實資料集的異常檢測

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們闡述在真實資料集上的穩健協方差估計的必要性。這樣的協方差估計，對異常點檢測，以及更好地理解資料結構都是有益的。為了方便資料視覺化，我們選擇來自波士頓房價資料集的兩個變數

【Python例項第9講】物種分佈模型

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）建立物種的地理分佈模型，是保護生物學的一個重要問題。在這個例子裡，我們將根據已有的歷史觀測和14個環境變數，建立兩個南美洲哺乳動物類的地理分佈模型。這兩個物種分別是：褐喉樹懶(B

【Python例項第15講】分類概率圖

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子將用圖形表示不同分類器的分類概率。所謂“分類概率”，是指某個資料點屬於各個類別的概率。將所有資料點屬於任何類的概率，用顏色深淺表示，作出分類概率圖。在這裡，我們使用一個三類的資料

【Python例項第14講】普通判別分析與縮水判別分析

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子說明在判別分析裡使用縮水(shrinkage)的方法，可以提高分類的準確率。所謂“縮水”，是指減少預測的特徵。我們使用的資料集是模擬資料，你也可以在真實資料集上驗證縮水判別分析的分類效

【Python例項第13講】識別手寫數字

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子顯示怎樣使用scikit-learn識別手寫數字影象。關於手寫數字資料集的詳細介紹，請看《Python例項第3講》。例項詳解首先，載入matplotlib.pyplot繪相

【Python例項第11講】文字的核外分類

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子顯示scikit-learn怎樣進行OOC(out-of-core)分類。所謂核外方法(OOC approach), 指的是從未經記憶體的資料學習。在這裡，我們利用一個支援partia

【Python例項第10講】視覺化股票市場結構

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本例採用幾個無監督學習技術，從股票的歷史報價變異裡提取股票市場結構。這裡，我們使用的數量是每日的報價變異。學習一個圖結構我們使用稀疏的可逆協方差估計尋找哪些報價是條件相關的，即，給

【Python例項第20講】手寫數字識別問題的K-Means聚類

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們在手寫數字識別資料集上，比較 K-means 聚類演算法對於不同的初始化策略對執行時間和結果質量的影響。我們也利用不同的聚類質量測度判別聚類標籤對於參考標籤的擬合優度。這裡使

【Python例項第18講】affinity propagation聚類演算法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在統計和資料探勘裡，affinity propagation(AP)是一種基於資料點之間的“資訊傳遞”的聚類演算法。與k-means等其它聚類演算法不同的是，AP不需要在聚類前確定或估計類的個

【Python例項第17講】均值偏移聚類演算法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）均值偏移(mean shift)是一個非引數特徵空間分析技術，用來尋找密度函式的最大值點。它的應用領域包括聚類分析和影象處理等。均值偏移演算法均值偏移是一個迭代地求密度函式極值點的

【Python例項第16講】特徵集聚

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本例演示如何使用特徵集聚(feature agglomeration)將相似的特徵合併到一起。所謂“特徵集聚”，是指迭代地將相似的特徵合併到一起，類似於聚類，但這裡聚的是特徵而不是樣本。本例使

【Python例項第21講】確定類個數的silhouette分析法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在聚類問題中，Silhouette分析用來研究聚類結果的類間距離。Silhouette數值度量在相同類中的點，與不同類中的點相比的緊密程度。Silhouette圖視覺化這一測度，這樣就提供了一

【直播預告】：Java Spring Boot開發實戰系列課程【第12講】：Spring Boot 2.0效能監控實戰與Actuator機制解析

主講人：徐雷（阿里雲棲特邀Java專家）徐雷，花名：徐雷frank；資深架構師，MongoDB中文社群聯席主席，吉林大學計算機學士，上海交通大學碩士。從事了 10年+開發工作，專注於分散式架構，Java Spring Boot、Spring Cloud、MongoDB、Redis。喜歡專研技術問題，擅長講

【python密碼學編程】5.反轉加密法

dea log col message 密碼學 cipher style translate class 1 #Reverse Cipher 2 message = ‘there can keep a secret,if two of them are dead.‘ 3

【C++ Primer 第15章】抽象基類

*** rim ica include margin urn 對象 class mes 抽象基類【註意】我們也可以為純虛函數提供定義，不過函數體必須在類的外部，也就是說，我們不能再內部為一個=0思網函數提供函數體。 C++中含有（或未覆蓋直接繼承）純虛函數的類是抽象

【C++ Primer 第15章】定義派生類拷貝賦值運算符

運算符結果類成員變量 you 輸出 ons c++ prime get pre 學習資料 • 派生類的賦值運算符/賦值構造函數也必須處理它的基類成員的賦值定義賦值運算符【註意】對派生類進行拷貝構造時，如果想讓基類的成員也同時拷貝，就一定要在派生類拷貝

【UE4】第12講 FSocket斷線重連

（版權宣告，禁止轉載）【第03講】實現了FSocket的連網基礎功能，這一講實現一下斷線重連 <如果資深前輩發現有理解錯誤，還請不吝指正> <1> 建立Socket，設定阻塞模式（預設創建出來的就是阻塞模式，不用設定）

【第12天】Java集合（一）

1 什麼是集合？有哪些分類 1.1 JCF(Java Collections FrameWork) 2 ArrayList ★ 2.1 包裝類 2.2 基本用法與特點 2.3 刪除元素

【Python例項第12講】譜系共聚類法

例項詳解

相關推薦