python 聚類分析實戰案例:K-means演算法(原理原始碼)

阿新 • • 發佈：2022-05-04

K-means演算法：

關於步驟：參考之前的部落格關於程式碼與資料：暫時整理程式碼如下：後期會附上github地址，上傳原始資料與程式碼完整版，

各種聚類演算法的對比：參考連線

Kmeans演算法的缺陷

1.聚類中心的個數K 需要事先給定，但在實際中這個 K 值的選定是非常難以估計的，很多時候，事先並不知道給定的資料集應該分成多少個類別才最合適 2.Kmeans需要人為地確定初始聚類中心，不同的初始聚類中心可能導致完全不同的聚類結果。

#!usr/bin/env python
#_*_ coding:utf-8 _*_
import random
import math
'''
kMeans:2列資料對比，帶有head
'''
#1.load data
def importData():
   f = lambda name,b,d: [name, float(b), float(d)]

   with open('birth-death-rates.csv', 'r') as inputFile:
          return [f(*line.strip().split('t')) for line in inputFile]

寫入檔案型別

#2. calculate Distance

def euclideanDistance(x,y):
    return math.sqrt(sum([(a-b)**2 for (a,b) in zip(x,y)]))

#L=points,
def partition(points, k, means, d=euclideanDistance):
   # print('means={}'.format(means))
   thePartition = [[] for _ in means]  # list of k empty lists

   indices = range(k)
   # print('indices={}'.format(indices))

   for x in points:

      #index為indices索引，呼叫d函式，計算每個值與聚類中心的距離，將其分類
      closestIndex = min(indices, key=lambda index: d(x, means[index]))#實現X與每個Y直接的求解：key=lambda index: d(x, means[index])

      thePartition[closestIndex].append(x)

   return thePartition

#3.尋找收斂點
def mean(points):
   ''' assume the entries of the list of points are tuples;
       e.g. (3,4) or (6,3,1). '''

   n = len(points)
   # print(tuple(float(sum(x)) / n for x in zip(*points)))   #*points將【[1，2]，[2，3]】分割出來【1，2】
   return tuple(float(sum(x)) / n for x in zip(*points))  #將最開始的[[4, 1], [1, 5]] 經過處理變成[（4, 1）,（1, 5）]


def kMeans(points, k, initialMeans, d=euclideanDistance):
   oldPartition = []
   newPartition = partition(points, k, initialMeans, d)

   while oldPartition != newPartition:
      oldPartition = newPartition
      newMeans = [mean(S) for S in oldPartition]
      newPartition = partition(points, k, newMeans, d)

   return newPartition

#0.函式呼叫初始中心點

if __name__ == "__main__":
   L = [x[1:] for x in importData()] # remove names
   # print (str(L).replace('[','{').replace(']', '}'))
   import matplotlib.pyplot as plt
   '''
   plt.scatter(*zip(*L))
   plt.show()
   '''
   import random
   k = 3
   partition = kMeans(L, k, random.sample(L, k))  #L是集合，K分類個數，random.sample(L, k)中心點
   plt.scatter(*zip(*partition[0]), c='b')#[[],[],[]]
   plt.scatter(*zip(*partition[1]), c='r')
   plt.scatter(*zip(*partition[2]), c='g')
   plt.show()

python 聚類分析實戰案例:K-means演算法(原理原始碼)

K-means演算法：關於步驟：參考之前的部落格關於程式碼與資料：暫時整理程式碼如下：後期會附上github地址，上傳原始資料與程式碼完整版，

python 程式碼實現k-means聚類分析的思路(不使用現成聚類庫)

一、實驗目標　　　　1、使用 K-means 模型進行聚類，嘗試使用不同的類別個數 K，並分析聚類結果。

python資料分析：流量資料化運營（下）——基於自動K值得KMeans廣告效果聚類分析

案例背景某企業由於投放的廣告渠道比較多，需要對其做廣告效果分析以實現有針對性的廣告效果測量和優化工作。跟以應用為目的的案例不同的是，由於本案例是一個分析型案例，該過程的輸出其實是不固定的，因此需要跟業

拓端tecdat|R語言譜聚類、K-means聚類分析非線性環狀資料比較

原文連結：http://tecdat.cn/?p=23276 原文出處：拓端資料部落公眾號有些問題是線性的，但有些問題是非線性的。我假設，你過去的知識是從討論和解決線性問題開始的，這是一個自然的起點。對於非線性問題的解決，往

拓端tecdat|R語言K-means和層次聚類分析癌細胞系微陣列資料和樹狀圖視覺化比較

原文連結：http://tecdat.cn/?p=25196 原文出處：拓端資料部落公眾號目標對“NCI60”（癌細胞系微陣列）資料使用聚類方法，目的是找出觀察結果是否聚類為不同型別的癌症。K_means 和層次聚類的比較。

《資料分析實戰》--用R做聚類分析《資料分析實戰》–用R做聚類分析

《資料分析實戰》–用R做聚類分析本文參考的是《資料分析實戰》的第八章。

16--劃分聚類分析（K 均值聚類、圍繞中心點的劃分（PAM））

1 劃分聚類分析 1.1 K 均值聚類最常見的劃分方法是K均值聚類分析。從概念上講，K均值演算法如下：

python聚類演算法解決方案（rest介面/mpp資料庫/json資料/下載圖片及資料）

1. 場景描述一直做java，因專案原因，需要封裝一些經典的演算法到平臺上去，就一邊學習python，一邊網上尋找經典演算法程式碼，今天介紹下經典的K-means聚類演算法，演算法原理就不介紹了，只從程式碼層面進行介紹

SQL分析實戰案例

第一部分分析背景及資料說明 1.1 分析背景中國電商行業經過初期的粗狂式發展，從有貨就能賣的模式逐漸轉變到精細化運營的模式，通過對大量資料進行深入分析，發現數據背後的使用者需求逐漸伴隨在電商運營的工作中

DBSCAN聚類分析

模型介紹 Kmeans聚類存在兩個致命缺點，⼀是聚類效果容易受到異常樣本點的影響；⼆是該

【聚類分析】基於matlab交通幹道車流量FCM聚類分析及預測【含Matlab原始碼 1141期】

一、簡介伴隨著模糊集理論的形成、發展和深化，RusPini率先提出模糊劃分的概念。以此為起點和基礎，模糊聚類理論和方法迅速蓬勃發展起來。針對不同的應用，人們提出了很多模糊聚類演算法，比較典型的有基於相似性關

16--層次聚類分析

層次聚類分析在層次聚類中，起初每一個例項或觀測值屬於一類。聚類就是每一次把兩類聚成新的一類，直到所有的類聚成單個類為止，演算法如下：

利用SPSS對資料做系統聚類分析

現用如下資料做系統聚類分析：將資料匯入spss中，如圖：步驟如下： ①【分析】----【分類】----【系統聚類】

機器學習入門 05 RFM模型聚類分析客戶價值

資料在這裡RFM聚類分析_demo.xlsx 程式碼如下 \'\'\' RFM模型聚類分析客戶價值業務週期：1個月 s

機器學習實戰之K-近鄰演算法

一、K-近鄰演算法概念 1、書上概念： K-近鄰演算法採用不同特徵值之間的距離的方法進行分類

無監督學習-K-means演算法

1、什麼是無監督學習一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。

k-means演算法

k：初始中心點個數，計劃聚類樹---->想聚集的個數，中心點也可叫做質點，可以任意選擇點數

簡單易學的機器學習演算法——K-Means++演算法

一、K-Means演算法存在的問題由於K-Means演算法的簡單且易於實現，因此K-Means演算法得到了很多的應用，但是從K-Means演算法的過程中發現，K-Means演算法中的聚類中心的個數k需要事先指定，這一點對於一些未知資料存

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮各位讀者好，在這片文章中我們嘗試使用sklearn庫比較k-means聚類演算法和主成分分析（PCA）在影象壓縮上的實現和結果。壓縮影象的效果通過佔用的減少比例以及

Python機器學習的練習七：K-Means聚類和主成分分析

這部分練習涵蓋兩個吸引人的話題：K-Means聚類和主成分分析（PCA），K-Means和PCA都是無監督學習技術的例子，無監督學習問題沒有為我們提供任何標籤或者目標去學習做出預測，所以無監督演算法試圖從資料本身中學習一