python模組之scipy的層次聚類簡單測試與使用

阿新 • • 發佈：2019-01-01

scipy模組是很強大，裡面很多有用的函式，這裡先花一點時間使用一下scipy模組中的層次聚類，下面是簡單的使用：

#!usr/bin/env python
#encoding:utf-8

'''
__Author__:沂水寒城
功能：scipy測試使用
'''

import scipy
import json
import scipy.cluster.hierarchy as sch
from scipy.cluster.vq import vq,kmeans,whiten
import numpy as np
import matplotlib.pylab as plt


def cluster_test(datafile='data/shop_test/vector.json'):
    '''
    簡單的層次聚類實驗
    '''
    with open(datafile) as f:
        file_list=json.load(f)
    matrix=[]
    for one_dict in file_list:
        matrix.append(one_dict['vector'])
    #距離度量包括：
    '''
    'euclidean'、'minkowski'、'cityblock'、'seuclidean'、'sqeuclidean'
    'cosine'、'correlation'、'hamming'、'jaccard'、'chebyshev'、 'canberra'
    'braycurtis'、'mahalanobis'、'yule'、'matching'、'dice'、'kulsinski'
    'rogerstanimoto'、'russellrao'、'sokalmichener'、'sokalsneath'
    'wminkowski'
    '''
    disMat = sch.distance.pdist(matrix,'euclidean') 
    #距離計算方法包括:
    '''
    'single'、'complete'、'average'、'weighted'、'centroid'、
    '''
    Z=sch.linkage(disMat,method='average') 
    #視覺化處理
    P=sch.dendrogram(Z)
    plt.savefig('pictures/result.png')
    #聚類準則包括：
    '''
    'inconsistent'、'distance'、'maxclust'、'monocrit'、'maxclust_monocrit'
    '''
    cluster= sch.fcluster(Z, criterion='inconsistent',t=1) 
    print "層次聚類結果為:\n",cluster
    #白化處理
    data=whiten(matrix)
    #kmeans聚類
    '''
    聚類數確定方法：
    1.藉助層次聚類方法初步確定
    2.手動設定，嘗試法
    '''
    centroid=kmeans(data,max(cluster))[0]  
    #使用vq函式
    cluster2=vq(data,centroid)[0] 
    print "kmeans聚類結果為:\n", cluster2


def cluster_test2(datafile='data/shop_test/vector.json'):
    '''
    簡單的層次聚類實驗
    '''
    with open(datafile) as f:
        file_list=json.load(f)
    matrix=[]
    for one_dict in file_list:
        matrix.append(one_dict['vector'])
    #距離度量包括：
    '''
    'euclidean'、'minkowski'、'cityblock'、'seuclidean'、'sqeuclidean'
    'cosine'、'correlation'、'hamming'、'jaccard'、'chebyshev'、 'canberra'
    'braycurtis'、'mahalanobis'、'yule'、'matching'、'dice'、'kulsinski'
    'rogerstanimoto'、'russellrao'、'sokalmichener'、'sokalsneath'
    'wminkowski'
    '''
    disMat = sch.distance.pdist(matrix,'cityblock') 
    #距離計算方法包括:
    '''
    'single'、'complete'、'average'、'weighted'、'centroid'、
    '''
    Z=sch.linkage(disMat,method='complete') 
    #視覺化處理
    P=sch.dendrogram(Z)
    plt.savefig('pictures/result2.png')
    #聚類準則包括：
    '''
    'inconsistent'、'distance'、'maxclust'、'monocrit'、'maxclust_monocrit'
    '''
    cluster= sch.fcluster(Z, criterion='distance',t=1) 
    print "層次聚類結果為:\n",cluster
    #白化處理
    data=whiten(matrix)
    #kmeans聚類
    '''
    聚類數確定方法：
    1.藉助層次聚類方法初步確定
    2.手動設定，嘗試法
    '''
    centroid=kmeans(data,max(cluster))[0]  
    #使用vq函式
    cluster2=vq(data,centroid)[0] 
    print "kmeans聚類結果為:\n", cluster2


if __name__=='__main__':
    cluster_test(datafile='data/shop_test/vector.json')
    cluster_test2(datafile='data/shop_test/vector.json')

結果如下：

層次聚類結果為:
[ 4 12  1  9  9  1  4 16  7 19  2 12 10  2  7  5 18  8  7 11 10  2  5  4 12
  6  6  5  7 12  3 13  3 13 17  2 14  1 15  8 13 12 15]
kmeans聚類結果為:
[ 9  0 16 15 15  2  9  9  3 14  7 17 15 12  3  5  9  9  3 15 15  6  1  8 17
  9  9  5  3 17  4  0  4 13 11 12 10  2  9  9 13  0  9]
層次聚類結果為:
[ 9 18  3 23 24  1 10 30 13 34  7 17 25  6 13 12 33 15 13 27 26  4 12 11 17
 31 31 12 14 17  8 21  8 20 32  5 22  2 28 16 20 19 29]
kmeans聚類結果為:
[12 15  0 13 13  0  7  7 23  7 17 15  4  3 23  2 22 10 23 20 18  3  2  1 15
 21 21  2 23 15 11 15  9 19  6  3 14  0  8  5 15 15 16]
[Finished in 2.5s]

其中result.png如下：

result2.png如下：

純屬新手尚在學習，如果有興趣的歡迎交流哈！

python模組之scipy的層次聚類簡單測試與使用

scipy模組是很強大，裡面很多有用的函式，這裡先花一點時間使用一下scipy模組中的層次聚類，下面是簡單的使用： #!usr/bin/env python #encoding:utf-8 ''' __Author__:沂水寒城功能：scipy測試使用 '''

Python機器學習——Agglomerative層次聚類

條件分享圖片 n-2 mov unique ber and 兩個 its 層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。 ??其原理是：最初

機器學習之agglomerative_clustering-層次聚類

機器學習之agglomerative_clustering-層次聚類 # -*- coding: utf-8 -*- """ Created on Wed Nov 28 19:07:54 2018 @author: muli """ import numpy as

Python中的凝聚層次聚類示例

https://www.toutiao.com/a6641489713536434695/ 2019-01-01 19:32:04 層次聚類演算法將相似的物件分組到稱為聚類的組中。層次聚類演算法有兩種: 凝聚（Agglomerative ）-自下而上的方法。從許多

層次聚類之AGNES及Python實現

層次聚類層次聚類，顧名思義，就是一層一層的進行聚類，它試圖在不同層次對資料集進行劃分，可以由上向下把大的類別分割，即“自頂向下”的分拆策略(見下面AGNES部分)，也可以由下向上對小的類別進行聚合，即“自底向下”的聚合策略：開始把所有的樣本都歸為一類，然後逐

使用Python進行層次聚類（二）——scipy中層次聚類的自定義距離度量問題

今天，總結一下如何使用層次聚類演算法裡面的自定義距離度量層次聚類上次已經總結過。這次僅僅說明層次聚類的距離引數，這裡的距離引數可以使用自定義函式。我們進入該函式的文件頁面我們看到linkage的說明文件上面的函式scipy.cluster.hiera

python機器學習之--用凝聚層次聚類進行資料分組

1.什麼是層次聚類def perfrom_clustering(X,connectivity,title,num_clusters=3,linkage='ward'): plt.figure() model = AgglomerativeClustering(

【再回首Python之美】【矩陣】求矩陣中最大元素/最小元素的行列座標 For 層次聚類演算法Hierarchical Clustering Alg

求多維矩陣中最小元素的行列座標，這個在層次聚類演算法中用到，這裡實現記錄一下。1.簡介矩陣M: [[1 3 2] [2 6 0] [9 8 5]]最大元素是9，對應的行列座標為(2,0)最小元素是

python實現一個層次聚類方法

mac ima 優先隊列 () don 標簽中位數 filepath normal 層次聚類(Hierarchical Clustering) 一.概念　　層次聚類不需要指定聚類的數目，首先它是將數據中的每個實例看作一個類，然後將最相似的兩個類合並，該過程叠代計算只到剩

凝聚法層次聚類之ward linkage method

function hiera term span cal true 計算新增總結凝聚法分層聚類中有一堆方法可以用來算兩點（pair）之間的距離：歐式，歐式平方，manhattan等，還有一堆方法可以算類（cluster）與類之間的距離，什麽singl

【轉】使用scipy進行層次聚類和k-means聚類

歐氏距離 generate https then con method 感覺 long average scipy cluster庫簡介 scipy.cluster是scipy下的一個做聚類的package, 共包含了兩類聚類方法: 1. 矢量量化(scipy.cluste

層次聚類演算法的原理及python實現

層次聚類(Hierarchical Clustering)是一種聚類演算法，通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中，不同類別的原始資料點是樹的最低層，樹的頂層是一個聚類的根節點。聚類樹的建立方法：自下而上的合併，自上而下的分裂。（這裡介紹第一種） 1.2 層次聚類的合

Python：層次聚類分析

層次分析屬於聚類分析的一種，Scipy有這方面的封裝包。 linkage函式從字面意思是連結，層次分析就是不斷連結的過程，最終從n條資料，經過不斷連結，最終聚合成一類，演算法就此停止。 dendrogram是用來繪製樹形圖的函式。 from scipy

使用Python進行層次聚類（三）——層次聚類簇間自然分割方法和評價方法

簇間自然分割方法今天，主要研究一下層次聚類在進行資料運算的時候，對資料結果進行自然簇分離而需要分析的API————inconsistent()。該函式是計算層次聚類不一致係數的，不一致係數越大，表明使用該閾值進行聚類的偏差越大。這樣按照該不一致係數下的閾值進

機器學習之層次聚類及程式碼示例

一、層次聚類層次聚類是無監督學習方法，可對給定的N個待聚類的樣本進行層次的分類，直到某種條件（類的個數、類間的距離超過某個閾值）滿足為止。 1、層次聚類的劃分對於層次聚類，可具體分為： a. 凝聚的（agglomerative）層次聚類：採用

使用scipy進行層次聚類和k-means聚類

scipy cluster庫簡介 scipy.cluster是scipy下的一個做聚類的package, 共包含了兩類聚類方法: 1. 向量量化(scipy.cluster.vq):支援vector quantization 和 k-means 聚類方法

聚類演算法之層次聚類

一、原型聚類和層次聚類原型聚類也稱基於原型的聚類(prototype-based clustering)，這類演算法假設聚類結構能夠通過一組原型刻畫，先對原型進行初始化，然後對原型進行迭代更新求解。採用不同的原型表示、不同的求解方式，產生不同的演算法。常用的原型聚類演算法有k

機器學習之聚類演算法（層次聚類）

層次聚類也叫連通聚類方法，有兩個基本方法：自頂而下和自底而上。自頂而將所有樣本看做是同一簇，然後進行分裂。自底而上將初所有樣本看做不同的簇，然後進行凝聚。這種聚類的中心思想是：離觀測點較近的點相比離觀測點較遠的點更可能是一類。這種方法首先會生成下面的樹

機器學習(4)--層次聚類(hierarchical clustering)基本原理及實現簡單圖片分類

關於層次聚類(hierarchical clustering)的基本步驟： 1、假設每個樣本為一類，計算每個類的距離，也就是相似度 2、把最近的兩個合為一新類，這樣類別數量就少了一個 3、重新新類與各個舊類(去了那兩個合併的類)之間的相似度； 4、迴圈重複2和3直到所有樣本

Python 用凝聚層次聚類進行資料分組

本文主要參考《Python機器學習經典例項》在介紹凝聚層次聚類之前，我們需要先理解層次聚類（hierarchical clustering）。層次聚類是一組聚類演算法，通過不斷地分解或合併叢集來構建樹狀叢集（tree-like clusters）。層次聚類的結構可以用

python模組之scipy的層次聚類簡單測試與使用

相關推薦