Python+pandas實現簡單聚類分析
阿新 • • 發佈:2018-11-22
Python+pandas實現簡單聚類分析
-
應用百度百科對聚類分析的解釋:
聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎上收集資料來分類。聚類源於很多領域,包括數學,電腦科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述資料,衡量不同資料來源間的相似性,以及把資料來源分類到不同的簇中。 -
待分析資料如下(CSV檔案):
客戶年齡,平均每次消費金額,平均消費週期(天)
23,317,10
22,147,13
24,172, 17
27,194,67
37,789,35
25,190,1
29,281,10
27,142,12
28,186,8
23,226,1
22,287,32
32,499,3
25,181,90
26,172,1
24,190,16
27,271,31
40,382,25
- 目標要求:
通過客戶的資訊為客戶分類,確定 哪些使用者為有價值使用者
開始動手:
import pandas as pd
data = pd.read_csv('company.csv', sep=',', encoding='gbk')
x = data[['平均消費週期(天)', '平均每次消費金額' ]].as_matrix()
# 匯入聚類分析工具KMeans
from sklearn.cluster import KMeans
# 傳入要分類的數目
kms = KMeans(n_clusters=3)
y = kms.fit_predict(x)
print(y)
Python就是這麼簡單。覺得Python資料分析很簡單?
並不是,這個聚類分析的演算法是內建的,可能並不能很好的適應我們的使用需求。
所以,想用Python做資料分析還得靠我們自己動手多寫程式碼。