kmans將聚類結果標籤與原始資料ID對應--記錄

阿新 • • 發佈：2020-12-23

Kmeans將聚類結果對應原始資料儲存起來

原始資料樣式：

在這裡插入圖片描述



# K-Means Clustering

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
from scipy.cluster.vq import whiten

path = 'D:\\data\\cnndata\\order.csv'
dataset = pd.read_csv(path, 
header=None)
X = dataset.iloc[:, :].values

# y = dataset.iloc[:, 3].values

# Splitting the dataset into the Training set and Test set
"""from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)""" 


# Feature Scaling
"""from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)"""

# Using the elbow method to find the optimal number of clusters 

from sklearn.cluster import KMeans
wcss = []
for i in range(1, 15):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42 )
    kmeans.fit(X[:,6:9])
    wcss.append(kmeans.inertia_)
plt.plot(range(1, 15), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()

# Fitting K-Means to the dataset
# K-means本身不能解決 Random Initialization Trap，但是K-means++使用wcss演算法用n_init引數能解決
kmeans = KMeans(n_clusters = 4 , init = 'k-means++', random_state = 42)
y_kmeans = kmeans.fit((X[:,6:9]))  #將元資料 6-9列喂kmeans

#將kmeans對應聚類簇為0的資料選出來
A = X[y_kmeans.labels_ == 0,:]
# a = np.zeros(pd.Series(y_kmeans.labels_ == 0).value_counts())
#print(A)
m = np.shape(A)[1]

#為A矩陣最後一列打上標籤0
A = np.insert(A,m,0,axis=1)
print(A)

#提出聚簇==1的資料並打上標籤
B = X[y_kmeans.labels_ == 1,:]
B = np.insert(B,m,1,axis=1)

# 2
C = X[y_kmeans.labels_ == 2,:]
C = np.insert(C,m,2,axis=1)
# 3
D = X[y_kmeans.labels_ ==  3,:]
D = np.insert(D,m,3,axis=1)

#全部新增到A矩陣
A = np.insert(A,np.shape(A)[0],B,axis=0)
A = np.insert(A,np.shape(A)[0],C,axis=0)
A = np.insert(A,np.shape(A)[0],D,axis=0)
#print('AB N:',np.shape(A)[0])
#print(A)
#print('A m:',np.shape(A)[1])
#將矩陣輸出--------重命名錶頭
pd_data = pd.DataFrame(A,columns=['id','userid','dayhot','day','orderhot','order','R','F','E','O','sum','tag'],dtype=str)   
pd_data.to_csv('D:\\data\\cnndata\\pd_dataNsocre-1.csv')

kmans將聚類結果標籤與原始資料ID對應--記錄

技術標籤：kmeans大資料 Kmeans將聚類結果對應原始資料儲存起來原始資料樣式：

將逐浪CMS標籤與JS判斷靈活結合，美的不要不要的

之前發過一個有關“相關文章的內容”逐浪CMS Tags內容關鍵詞設計優化方向討論https://bbs.z01.com/PItem?id=18453[分享自逐浪CMS開發者社群社群]最近在使用過程當中，發現相關文章這塊在使用過程當中依然有

KMeans聚類演算法思想與視覺化

1.聚類分析 1.0 概念聚類分析簡稱聚類（clustering），是一個把資料集劃分成子集的過程，每一個子集是一個簇（cluster），使得簇中的樣本彼此相似，但與其他簇中的樣本不相似。

MySQL中bit與Java資料型別對應

MySQL中使用bit儲存資料，含義只能表示0或1，bit稱為位資料型別；且不能用於計算。儲存消耗<=1個位元組【bit型別佔用的空間與bit型別的列所在表的位置有關，有些情況下bit佔用了一個位元組，有些情況下bi

k-means 聚類演算法與Python實現程式碼

k-means 聚類演算法思想先隨機選擇k個聚類中心，把集合裡的元素與最近的聚類中心聚為一類，得到一次聚類，再把每一個類的均值作為新的聚類中心重新聚類，迭代n次得到最終結果分步解析

【機器學習與R語言】11- Kmeans聚類

目錄1.理解Kmeans聚類1）基本概念2）kmeans運作的基本原理2.Kmeans聚類應用示例1）收集資料2）探索和準備資料3）訓練模型4）評估效能5）提高模型效能

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）的程式碼實現與分析

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）對比分析在開始閱讀前可以看一下有關這兩個演算法的描述和視覺化效果展示

聚類演算法（相似度與效能度量）

技術標籤：聚類機器學習資料探勘python人工智慧 1.相似度度量的方法有距離計算、餘弦度計算和核函式計算

PCL(5)點雲聚類之 VoxelGrid體素取樣與ApproximateVoxelGrid體素取樣

1 區別 1.1 原理 VoxelGrid體素取樣,對點雲進行體素化，建立一個三維體素柵格。在每個體素裡面，求取該立方體內的所有點雲重心點來代表這個立方體的表示，以此達到下采樣的目的。ApproximateVoxelGrid體素取樣,對點

scikit基礎與機器學習入門（8） sklearn主要解決的三類問題——分類，迴歸和聚類

其實這篇沒啥內容，就是在熟悉一下程式碼\\((*^_^*)\\) 分類模型的訓練——以決策樹為例

拓端tecdat|Python實現譜聚類Spectral Clustering演算法和改變簇數結果視覺化比較

原文連結：http://tecdat.cn/?p=24842 原文出處：拓端資料部落公眾號譜聚類是一種將資料的相似矩陣的譜應用於降維的技術。它是有用且易於實現的聚類方法。

谷歌與法國 300 家報紙達成授權協議，將為搜尋結果中的新聞片段付費

北京時間 3 月 3 日下午訊息，據報道，谷歌今日宣佈，已與法國一出版商協會達成一項新的內容版權協議。該出版商協會成員包括近 300 家法國報紙。雙方在一份聯合宣告中稱，新協議的達成表明雙方的談判取得了成功。谷歌

多工思想與聚類聯邦學習

1.導引電腦科學一大定律：許多看似過時的東西可能過一段時間又會以新的形式再次迴歸。

Thinking in SQL系列之：資料探勘K均值聚類演算法與城市分級

引言：SQL做為一種程式語言，能夠滿足各類資料處理的需要，關鍵就在於演算法與思維方式。以SQL會友，希望結交更多的資料庫、資料分析領域的朋友。

Java中類的定義與例項化詳解

類的定義面向物件的程式設計中，類可以看作是我們自定義的資料型別，那麼，如何能更加優美，更加高效地定義它就顯得尤為重要。

Python中如何將一個類方法變為多個方法

前一篇文章《Python 中如何實現引數化測試？》中，我提到了在 Python 中實現引數化測試的幾個庫，並留下一個問題：

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動

python聚類演算法解決方案（rest介面/mpp資料庫/json資料/下載圖片及資料）

1. 場景描述一直做java，因專案原因，需要封裝一些經典的演算法到平臺上去，就一邊學習python，一邊網上尋找經典演算法程式碼，今天介紹下經典的K-means聚類演算法，演算法原理就不介紹了，只從程式碼層面進行介紹

JAVA錯誤類結果類和分頁結果類程式碼詳解

這篇文章主要介紹了JAVA錯誤類結果類和分頁結果類程式碼詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮各位讀者好，在這片文章中我們嘗試使用sklearn庫比較k-means聚類演算法和主成分分析（PCA）在影象壓縮上的實現和結果。壓縮影象的效果通過佔用的減少比例以及

kmans將聚類結果標籤與原始資料ID對應--記錄

Kmeans將聚類結果對應原始資料儲存起來

相關推薦