分析學生上網日誌——聚類DBSCAN例項練習

阿新 • • 發佈：2019-01-09

#分析學生開始上網時間和上網時長的模式
#單個學生上網日誌(記錄編號、學生編號、MAC地址、IP地址、開始、停止上網時間、上網時長)
#1.建立工程，引入sklearn相關包
import numpy as np
import sklearn.cluster as skc
from sklearn import metrics
import matplotlib.pyplot as plt
#2.載入資料，預處理資料
#讀取每條資料中的mac地址，開始上網時間，上網時長
mac2id=dict()
onlineTimes=[]
f=open('TestData.txt',encoding= 
'utf-8')#注意編碼方式
for line in f:
    mac=line.split(',')[2]
    startTime=int(line.split(',')[4].split()[1].split(':')[0])#要用int 不能eval
    onlineTime=int(line.split(',')[6])#讀取每條資料的mac地址，開始上網時間，上網時長
    if mac not in mac2id:#mac2id字典中鍵為mac地址，值為對應mac地址的上網時間和上網時長
        mac2id[mac]=len(onlineTimes)
        onlineTimes. 
append((startTime,onlineTime))
    else:
        onlineTimes[mac2id[mac]]=[(startTime,onlineTime)]
#2.1上網時間聚類，建立DBSCAN，進行訓練，獲得標籤
real_X=np.array(onlineTimes).reshape(-1,2)#變換成n行2列維度的陣列
X=real_X[:,0:1]#提取每行的第一列數，即startTime
db=skc.DBSCAN(eps=0.01,min_samples=20).fit(X)
labels=db.labels_
print('Labels:%s'% 
labels)#輸出資料被記上的標籤
#計算噪聲資料(標籤為-1)的比例
ratio=len(labels[labels[:]==-1])/len(labels)
#labels[:]==-1生成一個布林陣列，labels[labels[:]==-1]挑出原labels內為-1的元素
print('Noise ratio:{:.2%}'.format(ratio)) #要加:
#計算簇的個數(先把labels變為集合，集合無重複，計算總label個數，減去噪聲label)
n_clusters_=len(set(labels))-(1 if -1 in labels else 0)
print('Estimated number of cluster:%d'%n_clusters_)
#評價聚類效果
print('Silhouette Coefficient:%0.3f'%metrics.silhouette_score(X,labels))
#輸出各簇標號及簇內資料
for i in range(n_clusters_):
    print('Cluster',i,':')
    print(list(X[labels==i].flatten()))#array.flatten()為摺疊成一維陣列 
#直方圖展示，分析結果
plt.subplot(121)
plt.hist(X,24)
plt.xlabel('上網時間')
plt.ylabel('上網時長')
plt.axis([0,25,0,70])

#2.2上網時長聚類，建立DBSCAN，進行訓練，獲得標籤
Y=np.log(1+real_X[:,1:])
db=skc.DBSCAN(eps=0.14,min_samples=10).fit(Y)
labels=db.labels_
print('Labels_Y:%s'%labels)
ratio=len(labels[labels[:]==-1])/len(labels)
print('Noise ratio:{:.2%}'.format(ratio))
n_clusters_=len(set(labels))-(1 if -1 in labels else 0)
print('Estimated number of cluster:%d'%n_clusters_)
print('Silhouette Coefficient:%0.3f'%metrics.silhouette_score(Y,labels))
#統計每一個簇內的樣本個數，均值，標準差
for i in range(n_clusters_):
    print('Cluster',i,':')
    count=len(Y[labels==i])
    mean=np.mean(real_X[labels==i][:,1])
    std=np.std(real_X[labels==i][:,1])
    print('\t number of sample:%d'%count)
    print('\t mean of sample  :%.2f'%mean)
    print('\t std of sample   :{:.2f}'.format(std))
plt.subplot(122)
plt.subplots_adjust(wspace=0.3)#調整subplots之間橫向間距，縱向用hspace
x=np.linspace(0,len(labels),len(labels))
plt.plot(x,real_X[:,1])

分析學生上網日誌——聚類DBSCAN例項練習

#分析學生開始上網時間和上網時長的模式 #單個學生上網日誌(記錄編號、學生編號、MAC地址、IP地址、開始、停止上網時間、上網時長) #1.建立工程，引入sklearn相關包 import numpy as np import sklearn.cluster as skc from skle

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

之前也做過聚類，只不過是用經典資料集，這次是拿的實際資料跑的結果，效果還可以，記錄一下實驗過程。首先：確保自己資料集是否都完整，不能有空值，最好也不要出現為0的值，會影響聚類的效果。其次：想好要用什麼演算法去做，K-means，層次聚類還是基於密

數學模型：3.非監督學習--聚類分析和K-means聚類

rand tar 聚類分析復制 clust tle 降維算法 generator pro 1. 聚類分析聚類分析（cluster analysis）是一組將研究對象分為相對同質的群組（clusters）的統計分析技術 ---->> 將觀測對象的群體按照

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

聚類模型-密度聚類-DBSCAN

聚類模型 1、層次聚類 2、原型聚類-K-means 3、模型聚類-GMM 4、EM演算法-LDA主題模型 5、密度聚類-DBSCAN 6、圖聚類-譜聚類五、密度聚類-DBSCAN DBSCAN的類表示是一簇密度可達

基於密度聚類DBSCAN

/* DBSCAN Algorithm 15S103182 Ethan */ #include <iostream> #include <sstream> #include <fstream> #include <vector>

資料探勘 K-Medoide聚類實現例項

接著上一篇內容來講，本次要實現K-Medoide聚類方法對waveform資料以及影象的分割。簡而言之，K-Medoide就是將K-means求平均的方式替換成將各簇中所有點依次作為中心點對該簇所有點求距離之和進行遍歷，最終距離之和最小的作為新的中心點即可。優點：

聚類分析-實現亞洲足球聚類

Description：利用K-Means演算法實現亞洲足球的聚類；下圖是亞洲15只球隊在2005年-2010年間大型盃賽的戰績：下圖是0-1規格化後的資料： Analysis： 1.確定K值

聚類分析之迭代聚類——“K-Means聚類…

魯棒是Robust,英 [rə(ʊ)'bʌst]的音譯，也就是健壯、強壯、堅定、粗野的意思。魯棒性(robustness)就是系統的健壯性。常使用如：演算法的魯棒性。演算法雜貨鋪轉載學習演算法雜貨鋪——分類演算法之決策樹(Decision tree) 聚類演算法實踐（一）——層次聚類、K-

python sklearn 的k-means聚類易懂例項

使用sklearn庫來進行k-means聚類十分簡單，官網的教程是挺好的。但其他地方的一些例子和教程則很多都是要麼只是寫給作者自己看的，要麼是程式碼不能直接執行的。這裡我寫這篇文章，用盡量簡單的易懂方式來封裝k-means程式碼：首先建立一個kmeans.py

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

聚類演算法例項

testSet.txt 1.658985 4.285136 -3.453687 3.424321 4.838138 -1.151539 -5.379713 -3.362104 0.972564 2.92408

SPSS聚類分析——一個案例演示聚類分析全過程

案例資料來源：有20種12盎司啤酒成分和價格的資料，變數包括啤酒名稱、熱量、鈉含量、酒精含量、價格。資料來自《SPSS for Windows 統計分析》data11-03。點選下載【一】問題一：選擇那些變數進行聚類？——採用“R型聚類” 1、現在我們有4個變數用來對啤酒分類，是否有必要

python-層次聚類演算法例項-僅針對連續性變數

根據機器學習中“層次聚類演算法”的原理，我用python程式碼實現了一個具體的例子。層次聚類演算法只能單獨處理“連續變數”或者“離散變數”，這個例項中實現了僅針對“連續變數”的例子。需要在聚類前進行最大最小歸一化、正態歸一化。資料、下載程式碼可以訪問我的github

python資料分析與挖掘實戰—聚類演算法對比

#-*-coding:utf-8-*- import numpy as np import matplotlib.pyplot as plt from sklearn import datasets

SPSS聚類分析——一個案例演示聚類分…

本文實際為2010年5月8日完成併發布的，瀏覽量：7199，評論數：5。案例資料來源：有20種12盎司啤酒成分和價格的資料，變數包括啤酒名稱、熱量、鈉含量、酒精含量、價格。資料來自《SPSS for Windows 統計分析》data11-03。點選下載【一】問題一：選擇那些變數進行聚類？——

吳裕雄 python 機器學習——密度聚類DBSCAN模型

ted itl 機器學習 blob pri plt matplot space ase import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from s

SLS機器學習最佳實戰：日誌聚類+異常告警

摘要：圍繞日誌，挖掘其中更大價值，一直是我們團隊所關注。在原有日誌實時查詢基礎上，今年SLS在DevOps領域完善了如

聚類——密度聚類DBSCAN

Clustering 聚類密度聚類——DBSCAN 　　前面我們已經介紹了兩種聚類演算法：k-means和譜聚類。今天，我們來介紹一種基於密度的聚類演算法——DBSCAN，它是最經典的密度聚類演算法，是很多演算法的基礎，擁有很多聚類演算法不具有的優勢。今天，小編就帶你理解密度聚類演算法DBSCAN的實質。

聚類-DBSCAN基於密度的空間聚類

1.DBSCAN介紹 DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法）是一種基於密度的空間聚類演算法。該演算法將具有足夠密度的區域劃分為簇，並在具有噪聲的空間資料庫中發現任意形狀的簇，它將簇定

分析學生上網日誌——聚類DBSCAN例項練習

相關推薦