機器學習小實戰（四） KMeans聚類

阿新 • • 發佈：2019-01-08

二、小案例

一、 KMeans聚類簡介

需要事先指定簇的數目k

優化目標：所有點到各自質心的距離之和最小

特點：受初始值（K個隨機質心的位置）的影響挺大的、受形狀的影響還有點大

二、小案例

讀資料、演算法例項化（設定引數），訓練模型、展示與分析

1. 讀取資料，瞭解一下

import numpy as np
import pandas as pd
import matplotlib as plt

beer=pd.read_csv('data.txt',sep=' ')
print(beer.shape) #(20, 5)
print(beer.head())

2. 資料預處理

給定資料集有5列，第一列是名字，與特徵沒什麼關係，所以將後面四列提取出來，作為接下來聚類的資料。

X=beer[['calories','sodium','alcohol','cost']]

3. KMeans聚類演算法

演算法例項化：指定簇的個數為3或2，然後將資料傳入進行訓練

from sklearn.cluster import KMeans

km_3=KMeans(n_clusters=3).fit(X) #一行完成演算法的例項化和傳入資料
km_2=KMeans(n_clusters=2).fit(X)

km_3.labels_

結果：array([0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 2])

輸出的這個陣列中有3種取值：0,1,2對應三個不同的簇的標籤

beer['cluster_3']=km_3.labels_ #將標籤值（所在的是哪個簇）作為新的特徵存入csv中
beer['cluster_2']=km_2.labels_
beer.sort_values('cluster_3') #按值內容排序

4. 結果視覺化

多個特徵，做二維視覺化時就只能選擇2個特徵進行視覺化咯

from pandas.tools.plotting import scatter_matrix #散佈圖矩陣
cluster_centers3=km_3.cluster_centers_
cluster_centers2=km_2.cluster_centers_
beer.groupby('cluster_3').mean() #計算不同類別所對應的其他屬性的平均值
beer.groupby('cluster_2').mean()

centers=beer.groupby('cluster_3').mean().reset_index()
plt.rcParams['font.size']=14
colors=np.array(['red','green','blue','yello'])

#散點圖中，兩個座標分別是calories和alcohol的取值
plt.scatter(beer['calories'],beer['alcohol'],c=colors[beer['cluster_3']])
plt.scatter(centers.calories,centers.alcohol,linewidth=3,marker='+',s=300,c='black')
plt.xlabel('calories')
plt.ylabel('alcohol')

結果：centers長啥樣——

四、 KMeans用於影象壓縮

1. 讀取影象

# -*- coding:utf-8 -*-這行太重要了，在anaconda程式設計時，要是忘記加上這行，可就顯示不出影象了呢

# -*- coding:utf-8 -*-
from skimage import io
from sklearn.cluster import KMeans
import numpy as np

image=io.imread('img.jpg')
io.imshow(image)
io.show()
#print(image.shape) #(647, 650, 3) 原來3個通道

2. KMeans壓縮

rows=image.shape[0]
cols=image.shape[1]

image=image.reshape(image.shape[0]*image.shape[1],3)   #一張圖的畫素點排成一列，3表示3個通道的值
kmeans=KMeans(n_clusters=128,n_init=10,max_iter=200)   #例項化kmeass，指定n為128（原來是256，並且還有3個通道呢）
kmeans.fit(image)  # 例項化kmeans後，傳入物件image

clusters=np.asarray(kmeans.cluster_centers_,dtype=np.uint8)#把聚類之後的中心給取出來
labels=np.asarray(kmeans.labels_,dtype=np.uint8)
labels=labels.reshape(rows,cols)#變成二維的了，所以是灰度圖形式

print(clusters.shape) #(128, 3) 
np.save('codebook_test.npy',clusters)
io.imsave('compressed_test.jpg',labels)

3. 儲存與顯示

image=io.imread('compressed_test.jpg')
io.imshow(image)
io.show()

太嚇人了！！！

機器學習小實戰（四） KMeans聚類

目錄二、小案例一、 KMeans聚類簡介需要事先指定簇的數目k 優化目標：所有點到各自質心的距離之和最小特點：受初始值（K個隨機質心的位置）的影響挺大的、受形狀的影響還有點大二、小案例讀資料、演算法例項化（設定引數），訓練模型、展示與分析

機器學習小實戰（三）貝葉斯實現拼寫檢查器

一、貝葉斯（Bayes）簡介貝葉斯老爺爺是一位有名的老人家！貝葉斯演算法和概率有關，貝葉斯公式其實高中學過的，就是忘了而已。二、貝葉斯實現拼寫檢查器 1. 原理 argmaxc P(A|B)=argmaxc P(B|A) P(A) /P(B) P(

機器學習小實戰（六） XGBoost基本原理

一、xgboost原理 1. 實踐證明，tree boosting（樹提升）可以有效地用於分類和迴歸任務中，提升方法是一種非常有效的機器學習方法，xgboost是提升的強化版本。 2. 和決策樹相關，集成了多個弱學習器。 3. 提升演算法，相當於一棵樹一棵樹地加，每加一

機器學習小實戰（二）建立決策樹

目錄一、決策樹簡介決策樹既可以分類，也可以迴歸。構造決策樹兩種方式：預剪枝/後剪枝難點：如何構造決策樹，選什麼特徵作為結點。特點：根節點是分類效果最好的，其餘次之、再次之。決策樹停止劃分結點的原因可能是：達到最大葉子節點數了、葉子結點樣本數

吳裕雄資料探勘與分析案例實戰（14）——Kmeans聚類分析

# 匯入第三方包import pandas as pdimport numpy as np import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metrics # 隨機生成三組二元正態分佈隨

Andrew Ng機器學習課程筆記（四）之神經網絡

《Python 機器學習》筆記（四）

構造 split logs pos 不支持虛擬訓練樣本字符 cal 數據預處理——構建好的訓練數據集機器學習算法最終學習結果的優劣取決於兩個主要因素：數據的質量和數據中蘊含的有用信息的數量。缺失數據的處理在實際應用過程中，樣本由於各種原因缺少一個或多個值得情況並不少見

我的機器學習之旅（四）：回歸與工程應用

多個算法 ati function RR numpy pen 圖片 bsp 內容:線性回歸；邏輯回歸，應用場景。一、線性回歸有監督學習，根據學習樣本{x->y},學習一個映射f：X->Y(線性相關),輸出預測結果y_i。最簡單的例子：y=ax+b 重要組成

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

機器學習之旅（四）

吳恩達教授的機器學習課程的第四周相關內容： 1、神經網路：表述(Neural Networks: Representation) 1.1、非線性假設（ Non-linear Hypotheses ）我們之前學的，無論是線性迴歸還是邏輯迴歸都有這樣一個缺點，即：當特徵太多時，計

Python3實現機器學習經典演算法（四）C4.5決策樹

一、C4.5決策樹概述　　C4.5決策樹是ID3決策樹的改進演算法，它解決了ID3決策樹無法處理連續型資料的問題以及ID3決策樹在使用資訊增益劃分資料集的時候傾向於選擇屬性分支更多的屬性的問題。它的大部分流程和ID3決策樹是相同的或者相似的，可以參考我的上一篇部落格：https://www.cnblogs.

學習理論、模型選擇、特徵選擇——斯坦福CS229機器學習個人總結（四）

這一份總結裡的主要內容不是演算法，是關於如何對偏差和方差進行權衡、如何選擇模型、如何選擇特徵的內容，通過這些可以在實際中對問題進行更好地選擇與修改模型。 1、學習理論（Learning theory） 1.1、偏差/方差（Bias/variance）

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

因此,當 wTx的估計值大於等於閾值0時,SVM對資料點標記為1,否則標記為0(其中閾值是SVM可以自適應的模型引數)。 SVM的損失函式被稱為合頁損失,定義為:

python機器學習實戰（四）

機器學習實戰（四）邏輯迴歸LR（Logistic Regression）

目錄 0. 前言 1. Sigmoid 函式 2. 梯度上升與梯度下降 3. 梯度下降法（Gradient descent） 4. 梯度上升法（Gradient ascent） 5. 梯度下降/上升法的數學推導

機器學習---支援向量機實戰（四）核函式實現

這節和上一節很像，不同的是，上一篇的是通過支援向量和待分類資料內積進行分類的，只是這裡不同的是，在計算內積時使用核函式進行代替，這裡參考的是機器學習實戰中的核函式，如果前面理解的比較深入，讀程式碼還是很簡單的，這裡的程式碼建議不要剛開始就去讀核函式定義，建議先從測試核函式的程

小白學習安全測試（四）——掃描工具-Vega

論壇工作模式 bsp 用戶出現註意修改內容 app 抓取數據 WEB掃描工具-Vega 純圖形化界面，Java編寫的開源web掃描器。兩種工作模式：掃描模式和代理模式【主流掃描功能】。用於爬站。處理表單，註入測試等。支持SSL：http://vega/ca.crt

Cocos Creator開發微信小遊戲（四）小遊戲實戰

目錄小遊戲介紹小遊戲cocos creator場景圖結構程式碼檔案小遊戲完整工程小遊戲介紹一個左右跳一跳小遊戲，點螢幕左邊向左跳，點右邊向右跳，落水為失敗。 PC chrome瀏覽器下游戲截圖： chrome瀏覽器執

Netty學習之路（四）-Netty入門實戰

前面學習了用Java原生NIO的程式設計實踐，過程還是挺複雜的，需要熟練掌握Selector，ServerSocketChannel握，SocketChannel，ByteBuffer等。所以在絕大多數業務場景中我們可以使用Netty來進行NIO程式設計。先總結一下Netty的優點：

Python小白學習之路（四）——第一次練習題

寫在前面：今天下雪了呢！連著兩天都沒有更新學習記錄。我沒有偷懶呢。做了一天的練習題，昨天學的內容還沒總結完，太累了就回去睡覺了連續一週早起，強大的內心也無法支撐我疲憊的身體今天早起做了整理。加油哦（貴在堅持，一定要好好堅持下去） 1.執行 Python 指令碼的兩種方式 (1)進入python直譯器，

機器學習小實戰（四） KMeans聚類

一、 KMeans聚類簡介

二、小案例

四、 KMeans用於影象壓縮

相關推薦