kmeans改進版聚類演算法

阿新 • • 發佈：2020-08-04

#WSS未知異常預測第一種演算法實現——kmeans改進版聚類演算法
import numpy as np
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
import pandas as pd

class kmeans_optimization:

    def __init__(self, data):  # 傳入一個二維的陣列numpy陣列為所需要檢測的資料data
        self.data =np.array(data)

    #結合實際資料實現的改進版本聚類方法
 
    def run(self):
        # 首先進行k_means聚類表示
        self.kmeans = KMeans(n_clusters=2, n_init=100)
        self.kmeans.fit(self.data)
        kmeans_pre = self.kmeans.labels_
        self.r1 = self.data[kmeans_pre == 0]
        self.r2 = self.data[kmeans_pre == 1]
        self.kmeans_center = self.kmeans.cluster_centers_  # 獲取聚類中心
 

        # 計算聚類的結果到各自聚類中心的距離
        self.distance1 = cdist(self.r1, [self.kmeans_center[0]])
        self.distance2 = cdist(self.r2, [self.kmeans_center[1]])
        # 進行k_means聚類合理性判斷
        if len(self.r1) < 0.1 * len(self.data) or len(self.r2) < 0.1 * len(self.data):
            if len(self.r1) < len(self.r2):
 
                self.errordata = self.r1
                self.normaldata = self.r2
            else:
                self.errordata = self.r2
                self.normaldata = self.r1

        else:
            if self.distance1.max() < self.distance2.max():
                self.distance = self.distance2
                self.distance_1 = self.distance1
                self.errordata1 = self.r2
                self.normaldata1 = self.r1
            else:
                self.distance = self.distance1
                self.distance_1 = self.distance2
                self.errordata1 = self.r1
                self.normaldata1 = self.r2

            #定義輸出異常距離輸出的閾值大小
            self.threshold = self.distance.mean() + 3 * self.distance1.std()

            self.error_ind1 = []
            self.normal_ind1 = []
            for (i, v) in enumerate(self.distance):
                if v > self.threshold:
                    self.error_ind1.append(i)
                else:
                    self.normal_ind1.append(i)
            self.errordata = self.errordata1[self.error_ind1]                     #得到異常的資料集合
            self.normaldata2 = self.errordata1[self.normal_ind1]
            self.normaldata = np.vstack((self.normaldata1, self.normaldata2))     #得到正常的資料集合

        #索引查詢和返回
        self.errorindex = []
        for (i, v) in enumerate(self.errordata):
            for (j, v1) in enumerate(self.data):
                if (v1 == v).all():
                    self.errorindex.append(j)
        self.index = [i for i in range(len(self.data))]
        self.normaldataindex = [i for i in self.index if i not in self.errorindex]

        return self.errordata,self.normaldata,self.errorindex,self.normaldataindex

if __name__ == '__main__':
    x = np.random.normal(1, 0.5, size=(20000, 69))
    print(x)
    y = np.random.normal(5, 0.5, size=(10, 69))
    print(y)
    y1 = np.random.normal(7, 1, (15, 69))
    y2 = np.random.normal(10, 1, (10, 69))
    z = np.vstack((x, y, y1, y2))
    z = np.array(z)
    print(z)
    z = pd.read_excel("finaldata.xlsx")
    z = z.iloc[:, :69]
    z = np.array(z)
    k = kmeans_optimization(z)
    print(k.run())

kmeans改進版聚類演算法

#WSS未知異常預測第一種演算法實現——kmeans改進版聚類演算法import numpy as npfrom scipy.spatial.distance import cdistfrom sklearn.cluster import KMeansimport pandas as pdclass kmeans_optimiza

Kmeans均值聚類演算法原理以及Python如何實現

第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個

Python實現Kmeans聚類演算法

本節內容：本節內容是根據上學期所上的模式識別課程的作業整理而來，第一道題目是Kmeans聚類演算法，資料集是Iris(鳶尾花的資料集)，分類數k是3，資料維數是4。

python機器學習——kmeans聚類演算法

背景與原理：聚類問題與分類問題有一定的區別，分類問題是對每個訓練資料，我給定了類別的標籤，現在想要訓練一個模型使得對於測試資料能輸出正確的類別標籤，更多見於監督學習；而聚類問題則是我們給出了一組資料，

譜聚類和Kmeans聚類演算法實現（python的sklearn）

Kmeans演算法大家都基本耳熟能詳了，而譜聚類演算法的過程如下構建樣本相似度矩陣S

KMeans聚類演算法思想與視覺化

1.聚類分析 1.0 概念聚類分析簡稱聚類（clustering），是一個把資料集劃分成子集的過程，每一個子集是一個簇（cluster），使得簇中的樣本彼此相似，但與其他簇中的樣本不相似。

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動

python聚類演算法解決方案（rest介面/mpp資料庫/json資料/下載圖片及資料）

1. 場景描述一直做java，因專案原因，需要封裝一些經典的演算法到平臺上去，就一邊學習python，一邊網上尋找經典演算法程式碼，今天介紹下經典的K-means聚類演算法，演算法原理就不介紹了，只從程式碼層面進行介紹

k-means 聚類演算法與Python實現程式碼

k-means 聚類演算法思想先隨機選擇k個聚類中心，把集合裡的元素與最近的聚類中心聚為一類，得到一次聚類，再把每一個類的均值作為新的聚類中心重新聚類，迭代n次得到最終結果分步解析

python實現mean-shift聚類演算法

本文例項為大家分享了python實現mean-shift聚類演算法的具體程式碼，供大家參考，具體內容如下

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

Python用K-means聚類演算法進行客戶分群的實現

一、背景 1.專案描述你擁有一個超市(Supermarket Mall)。通過會員卡，你用有一些關於你的客戶的基本資料，如客戶ID，年齡，性別，年收入和消費分數。

二分K-均值聚類演算法

#K-means聚類 from numpy import * import matplotlib.pyplot as plt plt.ion()#開啟互動模式，實時繪製

matlab實現K-means聚類演算法（轉載）

https://blog.csdn.net/wys7541/article/details/82153844 K-means聚類演算法的一般步驟：初始化。輸入基因表達矩陣作為物件集X，輸入指定聚類類數N，並在X中隨機選取N個物件作為初始聚類中心。設定迭代中止條件，

DBSCAN聚類演算法

DBSCAN聚類演算法介紹 1. DBSCAN是什麼？1.1初見美人1.2演算法引數介紹1.3樣本點的分類

關於k-means聚類演算法的原理及解析

一、k-means演算法思想：第一步，從檔案中讀取資料，點用元組表示，點集用列表表示。第二步，初始化聚類中心。首先獲取資料的長度，然後在range(0,length)這個區間上隨機產生k個不同的值,以此為下標提取出資料點，

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）的程式碼實現與分析

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）對比分析在開始閱讀前可以看一下有關這兩個演算法的描述和視覺化效果展示

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

技術標籤：統計學習方法演算法聚類python機器學習層次聚類聚合/分裂演算法 import numpy as np

密度聚類演算法的DBSCAN

DBSCAN problem 用你自己熟悉的語言，編寫程式,用你所學的任何一種聚類演算法，對所給定的資料集進行聚類挖掘，給出具體程式和挖掘結果。

聚類演算法（相似度與效能度量）

技術標籤：聚類機器學習資料探勘python人工智慧 1.相似度度量的方法有距離計算、餘弦度計算和核函式計算

kmeans改進版聚類演算法

相關推薦