使用python sklearn下的k_means聚類分析演算法時遇到的問題

阿新 • • 發佈：2019-01-10

#-*- coding: utf-8 -*-
#使用K-Means演算法聚類消費行為特徵資料

import pandas as pd

#引數初始化
inputfile = '../data/consumption_data.xls' #銷量及其他屬性資料
outputfile = '../tmp/data_type.xls' #儲存結果的檔名
k = 3 #聚類的類別
iteration = 500 #聚類最大迴圈次數
data = pd.read_excel(inputfile, index_col = 'Id') #讀取資料
data_zs = 1.0*(data - data.mean())/data.std() #資料標準化 


from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration) #分為k類，併發數4
model.fit(data_zs) #開始聚類

#簡單列印結果
r1 = pd.Series(model.labels_).value_counts() #統計各個類別的數目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚類中心
r = pd.concat([r2, r1], axis = 1) #橫向連線（0是縱向），得到聚類中心對應的類別下的數目 

r.columns = list(data.columns) + [u'類別數目'] #重命名錶頭
print(r)

#詳細輸出原始資料及其類別
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #詳細輸出每個樣本對應的類別
r.columns = list(data.columns) + [u'聚類類別'] #重命名錶頭
r.to_excel(outputfile) #儲存結果


def density_plot(data): #自定義作圖函式
  import matplotlib.pyplot as 
 plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
  plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
  p = data.plot(kind='kde', linewidth = 2, subplots = True, sharex = False)
  [p[i].set_ylabel(u'密度') for i in range(k)]
  plt.legend()
  return plt

pic_output = '../tmp/pd_' #概率密度圖檔名字首
for i in range(k):
  density_plot(data[r[u'聚類類別']==i]).savefig(u'%s%s.png' %(pic_output, i))

這是一個很常見的案列的程式碼，但是我在跑的時候瘋狂報錯，錯誤資訊如下

ImportError: [joblib] Attempting to do parallel computing without protecting your import on a system that does not support forking. To use parallel-computing in a script, you must protect your main loop using "if __name__ == '__main__'". Please see the joblib documentation on Parallel for more information

大概就是一個平行計算的錯誤，因為案例裡建立模型時，定義了n_jobs=4，所以報錯，但是為什麼會產生這個錯誤我不太清楚，可能是在python3.6版本里原先的庫有的地方不相容吧。

解決方案：

將n_jobs=4刪掉就好

使用python sklearn下的k_means聚類分析演算法時遇到的問題

#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import pandas as pd #引數初始化 inputfile = '../data/consumption_data.xls' #銷量及其他屬性資料 o

使用sklearn進行K_Means聚類演算法

再給一個百度上找的例子（侵權刪）： # -*- coding: utf-8 -*- from sklearn.cluster import KMeans from sklearn.externals import joblib import numpy

使用sklearn進行K_Means聚類算法

叠代 sta AR distance RM spa verbose TP word 首先附上官網說明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples

Python+pandas實現簡單聚類分析

Python+pandas實現簡單聚類分析應用百度百科對聚類分析的解釋：聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集資料來分類。聚類源於很多領域，包括數學，電腦科學，統計學，生物學和

機器學習筆記（3）——使用聚類分析演算法對文字分類（分類數k未知）

聚類分析是一種無監督機器學習（訓練樣本的標記資訊是未知的）演算法，它的目標是將相似的物件歸到同一個簇中，將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類，關鍵要解決這幾個問題：如何衡量兩個物件是否相似演算法的效能怎麼度量如何確定分類的個數或聚類

sklearn中kmeans聚類分析常用命令

from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyfinal = open('c:/test/final.dat' , 'r')data = [line.str

基於.NET實現資料探勘--聚類分析演算法

http://www.cnblogs.com/captain_ccc/articles/4093615.html 本篇文章主要採用另外一種分析演算法對目標顧客群體的挖掘，同樣的利用微軟案例資料進行簡要總結。應用場景介紹通過上一篇中我們採用Microsoft決策

聚類分析演算法Python3.6實踐K均值聚類（K-means）

在http://blog.csdn.net/zouxy09/article/details/17589329 上看到聚類分析演算法，但是是基於python2.7.5版本，直接移植到Python3.6會有問題，更改程式碼後為增加對比性，繪製原始資料不部分；程式碼如下： ##

《BI那點兒事》Microsoft 順序分析和聚類分析演算法

Microsoft 順序分析和聚類分析演算法是由 Microsoft SQL Server Analysis Services 提供的一種順序分析演算法。您可以使用該演算法來研究包含可通過下面的路徑或“順序”連結到的事件的資料。該演算法通過對相同的順序進行分組或分類來查詢最常見的順序。下面是一些順序示例：

《BI那點兒事》Microsoft 聚類分析演算法——三國人物身份劃分

什麼是聚類分析？聚類分析屬於探索性的資料分析方法。通常，我們利用聚類分析將看似無序的物件進行分組、歸類，以達到更好地理解研究物件的目的。聚類結果要求組內物件相似性較高，組間物件相似性較低。在三國資料分析中，很多問題可以藉助聚類分析來解決，比如三國人物身份劃分。聚類分析的基本過程是怎樣的？選擇聚類變

R語言做聚類分析Kmeans時確定類的個數

方法一： K平均演算法（k-means）在下面的誤差平方和圖中，拐點（bend or elbow）的位置對應的x軸即k-means聚類給出的合適的類的個數。 > n = 100 > g=6 > set.seed(g) > d &l

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

python資料分析：流量資料化運營（下）——基於自動K值得KMeans廣告效果聚類分析

案例背景某企業由於投放的廣告渠道比較多，需要對其做廣告效果分析以實現有針對性的廣告效果測量和優化工作。跟以應用為目的的案例不同的是，由於本案例是一個分析型案例，該過程的輸出其實是不固定的，因此需要跟業務運營方具體溝通需求。以下是在開展研究之前的基本預設條件：廣告渠道

sklearn實戰：對文件進行聚類分析（KMeans演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np from time import time from sklearn.datasets import load_fi

Java實現k_means演算法進行聚類分析

實驗描述: 對指定資料集進行聚類分析，選擇適當的聚類演算法，編寫程式實現，提交程式和結果報告。資料集： Iris Data Set（見附件一），根據花的屬性進行聚類。資料包括四個屬性：sepal length花萼長度，sepal width花萼寬度，petal len

python 聚類分析實戰案例:K-means演算法(原理原始碼)

K-means演算法：關於步驟：參考之前的部落格關於程式碼與資料：暫時整理程式碼如下：後期會附上github地址，上傳原始資料與程式碼完整版，各種聚類演算法的對比：參考連線 Kme

Python聚類分析作業代寫代做、人工智能Python作業代寫

data nal clas 決心 learn 前臺數值算法課程一個分析要求： 1. 對所給463條評語進行分詞聚類，分析其所反映的活動類型以下是人工分析得出的主要活動類型的參考舉例： 2. 按年份統計各種活動類型每年所提及的頻次比如：親子閱覽，這一活動在13

python資料分析：聚類分析（cluster analysis）

何為聚類分析聚類分析或聚類是對一組物件進行分組的任務，使得同一組（稱為聚類）中的物件（在某種意義上）與其他組（聚類）中的物件更相似（在某種意義上）。它是探索性資料探勘的主要任務，也是統計資料分析的常用技術，用於許多領域，包括機器學習，模式識別，影象分析，資訊檢索，生物資訊學，資料

聚類分析K均值演算法講解

聚類分析及K均值演算法講解吳裕雄當今資訊大爆炸時代，公司企業、教育科學、醫療衛生、社會民生等領域每天都在產生大量的結構多樣的資料。產生資料的方式更是多種多樣，如各類的：攝像頭、感測器、報表、海量網路通訊等等，面對這海量結構各式各樣的資料，如果單是依靠人力來完成，是件非常不現實的事，但這些資料又包含著許

python實現mean-shift聚類演算法

新建MeanShift.py檔案 import numpy as np # 定義預先設定的閾值 STOP_THRESHOLD = 1e-4 CLUSTER_THRESHOLD = 1e-1 # 定義度量函式 def distance(a, b):

使用python sklearn下的k_means聚類分析演算法時遇到的問題

這是一個很常見的案列的程式碼，但是我在跑的時候瘋狂報錯，錯誤資訊如下

解決方案：

相關推薦