統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

阿新 • • 發佈：2020-12-10

層次聚類聚合/分裂演算法

import numpy as np
import copy
import matplotlib.pyplot as plt

class Hierarchical_cluster:

    def __init__(self,k=None,p=2,dis_way='min',c_way='agg'):
        self.k = k
        self.p = p
        self.dis_way = dis_way
        self.c_way = c_way

    def 
 cauclate_dis(self, x1, x2):
        return np.sum(abs(x1 - x2) ** self.p) ** (1 / self.p)

    def create_D_matrix(self):
        self.D = np.zeros((self.n,self.n))
        for i in range(self.n):
            for j in range(self.n):
                if i==j:
                    self.D[i][j] = 0
                if 
 i>j:
                    self.D[i][j] = self.cauclate_dis(self.x[i],self.x[j])
                    self.D[j][i] = self.cauclate_dis(self.x[i],self.x[j])

    def cauclate_cluster_dis(self,c1,c2):
        if self.dis_way == 'min':
            min_ = 999999999
            for i in c1:
                for 
 j in c2:
                    min_ = min(min_,self.D[i][j])
            return min_

        if self.dis_way == 'mean':
            mean1 = np.mean([self.x[i] for i in c1],axis=0)
            mean2 = np.mean([self.x[i] for i in c2],axis=0)
            return self.cauclate_dis(mean1,mean2)

    def split_C(self,C):
        C1 = []
        C2 = []
        max_ = 0
        for i in C:
            for j in C:
                if j >= i:
                    if self.D[i][j] >= max_:
                        max_ = self.D[i][j]
                        max_i = i
                        max_j = j
        C1.append(max_i)
        C2.append(max_j)
        for c in C:
            if c == max_i or c == max_j:
                continue
            elif self.D[max_i][c] >= self.D[max_j][c]:
                C2.append(c)
            else:
                C1.append(c)
        return C1, C2

    def fit(self,x):
        self.x = np.array(x)
        self.n = len(x)
        self.create_D_matrix()

        if self.c_way == 'agg':
            C_way = []
            start_c = []
            for i in range(self.n):
                start_c.append([i])
            C_way.append(start_c)
            iter = 0
            while len(C_way[iter]) > 1:
                num_c = len(C_way[iter])
                c_temp = []
                dis_temp = []
                for c1 in range(num_c):
                    for c2 in range(num_c):
                        if c1 > c2:
                            c_temp.append([c1,c2])
                            dis_temp.append(self.cauclate_cluster_dis(C_way[iter][c1],C_way[iter][c2]))
                min_dis = min(dis_temp)
                min_index = dis_temp.index(min_dis)
                c1 = c_temp[min_index][0]
                c2 = c_temp[min_index][1]
                new_c = copy.deepcopy(C_way[iter])
                new_c.append(new_c[c1]+new_c[c2])
                del new_c[c1]
                del new_c[c2]
                C_way.append(new_c)
                iter += 1
            self.result = C_way


        if self.c_way == 'div':
            C_way = []
            new_c = list(range(self.n))
            C_way.append([new_c])
            iter = 0
            while len(C_way[iter]) < self.n:
                print(C_way)
                new_c = []
                for C in C_way[iter]:
                    if len(C) == 1 :
                        new_c.append(C)
                    else:
                        C1,C2 = self.split_C(C)
                        new_c.append(C1)
                        new_c.append(C2)
                C_way.append(new_c)
                iter+=1
            self.result = C_way

    def predict(self):
        final = np.zeros(len(self.x))
        if self.c_way == 'div':
            result  = self.result[self.k//2+1]
        if self.c_way == 'agg':
            result = self.result[-self.k]
        print(result)
        for i in range(len(result)):
            for j in result[i]:
                final[j] = i
        return list(final)

def main():
    x = [[0,2],[0,0],[1,0],[5,0],[5,2],[1,5],
         [2,4],[3,5],[1,1],[1,4],[5,4],[5,3],[0,1],
         [-1,0],[1,1],[4,4],[3,4]]
    k = 3
    HC = Hierarchical_cluster(k,dis_way='mean',c_way='agg')
    HC.fit(x)
    result = HC.predict()
    print(result)
    color_list =['r','k','b','g']
    for i,c in zip(range(len(result)),color_list[:len(result)]):
        positive_ = np.array(x)[np.array(result) == i]
        plt.scatter([k[0] for k in positive_],[k[1] for k in positive_] , c=c)
    plt.show()

if __name__ == '__main__':
    main()

#-----result-----------------
/usr/bin/python3 /Users/zhengyanzhao/PycharmProjects/tongjixuexi/shixian2/hierarchical_clustering.py
[[3], [2, 1, 14, 8, 12, 0, 13], [16, 6, 7, 9, 5, 15, 10, 11, 4]]
[1.0, 1.0, 1.0, 0.0, 2.0, 2.0, 2.0, 2.0, 1.0, 2.0, 2.0, 2.0, 1.0, 1.0, 1.0, 2.0, 2.0]

K_means聚類演算法

import numpy as np
import matplotlib.pyplot as plt

class K_menas:
    def __init__(self,k=None,p=2):
        self.k = k
        self.p = p

    def cauclate_dis(self, x1, x2):
        return np.sum(abs(x1 - x2) ** self.p) ** (1 / self.p)

    def fit(self,x):
        self.x = np.array(x)
        self.n = len(x)
        initial_c = np.random.choice(list(range(self.n)),self.k,replace=False)
        self.mean_list = [self.x[i] for i in initial_c]

        while True:
            self.c_list = [[] for _ in range(self.k)]
            self.x_list = [[] for _ in range(self.k)]
            for i in range(self.n):
                min_dis = 9999999
                for j in range(self.k):
                    dis = self.cauclate_dis(self.x[i], self.mean_list[j])
                    if min_dis > dis:
                        min_dis = dis
                        c = j
                self.c_list[c].append(i)
                self.x_list[c].append(self.x[i])
            mean_list_ = np.array([np.mean(c,0) for c in self.x_list])
            if (mean_list_ == self.mean_list).all():
                break
            self.mean_list = mean_list_

    def predict(self):
        dict_ = {}
        for i in range(len(self.c_list)):
            for j in self.c_list[i]:
                dict_[j]=i
        return [dict_[i] for i in range(self.n)]

    def compute_d(self,c):
        max_ = -1
        for c1 in range(len(c)):
            for c2 in range(len(c)):
                if c1 >= c2:
                    max_ = max(max_,self.cauclate_dis(c[c1],c[c2]))
        return max_

    def compute_mean_d(self):
        return np.mean([self.compute_d(i) for i in self.x_list])

def main():
    x = [[0,2],[0,0],[1,0],[5,0],[5,2],[1,5],
         [2,4],[3,5],[1,1],[1,4],[5,4],[5,3],[0,1],
         [-1,0],[1,1],[4,4],[3,4]]
    k_ = 5
    KM = K_menas(k_)
    KM.fit(x)
    result = KM.predict()
    print(result)

    k_list=[]
    for k in [1,2,3,4,5,6,7]:
        KM = K_menas(k)
        KM.fit(x)
        k_list.append([k,KM.compute_mean_d()])
    print(k_list)

    color_list =['r','k','b','g']
    for i,c in zip(range(len(result)),color_list[:len(result)]):
        positive_ = np.array(x)[np.array(result) == i]
        plt.scatter([k[0] for k in positive_],[k[1] for k in positive_] , c=c)
    plt.show()

if __name__ == '__main__':
    main()

#----------result----------------
/usr/bin/python3 /Users/zhengyanzhao/PycharmProjects/tongjixuexi/shixian2/K_means.py
[3, 3, 3, 4, 2, 0, 0, 1, 3, 0, 2, 2, 3, 3, 3, 1, 1]
[[1, 7.211102550927978], [2, 4.319596107466319], [3, 3.7863912010391503], [4, 1.9715873793431686], [5, 1.612899020449196], [6, 1.0107491837076632], [7, 1.0337239967856842]]

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

技術標籤：統計學習方法演算法聚類python機器學習層次聚類聚合/分裂演算法 import numpy as np

統計學習方法第十八章作業：PLSA 概率潛在語義分析演算法程式碼實現

技術標籤：統計學習方法演算法pythonnlp PLSA 概率潛在語義分析 import numpy as np import collections

高效能MySql學習筆記-第十四章：應用層優化

1. 常見問題有一些經常會碰到的問題清單：什麼東西在消耗系統中每臺主機的 CPU、磁碟、網路以及記憶體資源？這些值是否合理？

統計學習方法第三章

一、KD樹 https://zhuanlan.zhihu.com/p/45346117 二、程式碼理解首先定義KD樹中的每個節點

第十四章學習筆記

一、梗概本章討論了MySQL關係資料庫系統;介紹了MySQL並指出了它的重要性;展示瞭如何在Linux機器上安裝和執行MySQL;演示瞭如何使用MySQL在命令模式和批處理模式下使用SOL指令碼建立和管理資料庫;說明了如何將MvSOL

資訊安全系統設計與實現：第十四章學習筆記

資訊安全系統設計與實現：第十四章學習筆記 20191331 lyx 教材學習內容總結第十四章 MySQL資料庫系統

20191302第十四章學習筆記

第十四章 MySQL資料庫系統這一章討論了MySQL關係資料庫系統；介紹了 MySQL並指出了它的重要性；展示瞭如何在Linux機器上安裝和執行MySQL;演示瞭如何使用MySQL在命令模式和批處理模式下使用SQL指令碼建立和管理資

20191323第十四章學習筆記

MySQL MySQL是一個關係資料庫系統。在關係資料庫中，資料儲存在表中。每個表由多個行和列組成。表中的資料相互關聯。表也可能與其他表有關聯。關係結構使得可在表上執行查詢來檢索資訊並修改資料庫中的資料。

《Unix/Linux系統程式設計》第十四章學習筆記

《Unix/Linux系統程式設計》第十四章學習筆記目錄《Unix/Linux系統程式設計》第十四章學習筆記知識點總結MySQL簡介安裝MySQLMysql操作Mysql中的資料型別數值型別字串型別日期和時間型別Mysql中的資料操作

逆向工程核心原理——第十四章

執行時壓縮壓縮還分為無失真壓縮和有失真壓縮：無失真壓縮：使用壓縮過的檔案之前需要解壓，解壓之後可以百分之百恢復檔案內容。

第十四章 Linux中rwx許可權管理

許可權管理許可權的基本管理什麼是許可權許可權就是系統對我們使用者所做的操作的一種限制為什麼要有許可權給系統操作使用者的許可權做一個拓展和規定許可權的分類 [root@lxy ~]# ll-rw-r--r--. 1 root root2

【C++】《C++ Primer 》第十四章

第十四章過載運算與型別轉換一、基本概念過載運算子是具有特殊名字的函式：由關鍵字operator和其後要定義的運算子號共同組成。也包含返回型別、引數列表以及函式體。

第十四章套接字程式設計

14.1 使用TCP 14.1.1 從伺服器上獲取資料 -module(socket_examples). -export([nano_get_url/0]). -import(lists, [reverse/1]).

第十四章、鎖介面和類

　　Java原生的鎖——基於物件的鎖，它一般是配合synchronized關鍵字來使用的。實際上，Java在java.util.concurrent.locks包下，還為我們提供了幾個關於鎖的類和介面。它們有更強大的功能或更高的效能。

PHP與MySQL程式設計學習筆記第十二章日期和時間

格式化的日期和時間成為時間戳。UNIX以UTC（協調世界時，1970.1.1 00:00:00來經過的秒數）為時間戳，開始日期常稱為UNIX紀元。

第十四章、IO流

IO流 1. 位元組流定義：是按照位元組進行操作的，每次讀取一個位元組位元組流抽象基類：

android 通過串列埠來控制pwm的輸出_探索者 STM32F407 開發板資料連載第十四章 PWM 輸出實驗...

技術標籤：android 通過串列埠來控制pwm的輸出 1)實驗平臺：alientek 阿波羅 STM32F767 開發板

第十四章 Caché 變數大全 $STACK 變數

技術標籤：Caché 變數大全CachéCachestack系統變數特殊變數文章目錄第十四章 Caché 變數大全 $STACK 變數

學習JAVAWEB第十四天

## JSP：入門學習 1. 概念：* Java Server Pages： java伺服器端頁面* 可以理解為：一個特殊的頁面，其中既可以指定定義html標籤，又可以定義java程式碼* 用於簡化書寫！！！

c#圖解教程_第十三章& 第十四章_委託和事件

委託定義：委託是持有一個或多個方法的物件，委託是型別，不是物件。 delegate是C#中的一種型別，它實際上是一個能夠持有對某個方法的引用的類。與其它的類不同，delegate類能夠擁有一個簽名（signature），並且

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法 程式碼實現

層次聚類聚合/分裂演算法

K_means聚類演算法

相關推薦

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現