K-means 影象聚類

阿新 • • 發佈：2018-12-19

import numpy as np
import tensorflow as tf
from tensorflow.contrib.factorization import KMeans

# 本程式碼演示K均值的用法， tensorflow版本必須大於等於V1.1.0
# 程式碼專案：Project: https://github.com/aymericdamien/TensorFlow-Examples/

# 由於tensorflow實現的K均值演算法無法從GPU中獲得額外好處，所以我們忽略GPU裝置
import os

os.environ['CUDA_VISIBLE_DEVICES'] = ''

# 匯入MNIST資料集
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets('../data', one_hot=True)
full_data_x = mnist.train.images # shape:(55000, 784)，注意記住這個55000，理解後面會用到

# 模型超引數
num_steps = 50  # 訓練的總步數
batch_size = 1024  # 每個batch的樣本數
k = 25  # K的大小
num_classes = 10  # 十個數字，這也是模型最終分類的個數
num_features = 784  # 每個圖片都是28X28，共784個畫素

# 輸入圖片
X = tf.placeholder(tf.float32, shape=[None, num_features])
# 標註
Y = tf.placeholder(tf.float32, shape=[None, num_classes])

# K-Means的引數，其實是從庫裡使用提前封裝好的圖
kmeans = KMeans(inputs=X, num_clusters=k, distance_metric='cosine', use_mini_batch=True)

# 構建K-Means的計算圖
training_graph = kmeans.training_graph()

if len(training_graph) > 6:  # tensorflow 1.4及以上版本
    (all_scores, cluster_idx, scores, cluster_cnters_initialized,
     cluster_cnters_var, init_op, train_op) = training_graph
else:
    (all_scores, cluster_idx, scores, cluster_cnters_initialized,
     init_op, train_op) = training_graph

cluster_idx = cluster_idx[0] # 存放所有資料的圖心序號
avg_distance = tf.reduce_mean(scores) # 存放平均距離

# 初始化變數
init_vars = tf.global_variables_initializer()

# 建立一個tensorflow會話
sess = tf.Session()

# 執行初始化操作
sess.run(init_vars, feed_dict={X: full_data_x})
sess.run(init_op, feed_dict={X: full_data_x})

# 訓練
for i in range(1, num_steps + 1):
    _, d, idx = sess.run([train_op, avg_distance, cluster_idx], feed_dict={X: full_data_x})

    if i % 10 == 0 or i == 1:
        print('步驟 %i， 平均距離是：%f' % (i, d))

# 給每個圖心分配一個標籤
# 計算每個圖心的樣本個數，把樣本歸入離它最近的圖心（使用idx）
counts = np.zeros(shape=(k, num_classes))  # counts的shape是(25, 10),用於存放25個圖心分類的頻率計數
for i in range(len(idx)):
    # idx的shape是(55000,),每個成員都是0~24之間的值，對應所屬圖心的編號
    counts[idx[i]] += mnist.train.labels[i]
    # mnist.train.labels的shape是(55000, 10), 每個成員都是獨熱編碼，用來標註屬於哪個數字

# 將最高頻的標註分配給圖心。 len(labels_map)是25,也就是每個圖心一個成員，記錄每個圖心所屬的數字分類
labels_map = [np.argmax(c) for c in counts]
# 轉換前，labels_map的shape為(25,)
labels_map = tf.convert_to_tensor(labels_map)
# 此時labels_map變成了一個const op，輸出就是上面(25,)包含的值

# 評估模型。下面開始構建評估計算圖
# 注意：centroid_id就是對應label
cluster_label = tf.nn.embedding_lookup(labels_map, cluster_idx)
# cluster_idx輸出的tensor，每個成員都對映到labels_map的一個值。
# cluster_label的輸出就是對映的label值，後面用來跟標註比較計算準確度

# 計算準確率
correct_prediction = tf.equal(cluster_label, tf.cast(tf.argmax(Y, 1), tf.int32))
accuracy_op = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

# 測試模型
test_x, test_y = mnist.test.images, mnist.test.labels
print("測試準確率：", sess.run(accuracy_op, feed_dict={X: test_x, Y: test_y}))

K-means 影象聚類

import numpy as np import tensorflow as tf from tensorflow.contrib.factorization import KMeans # 本程式碼演示K均值的用法， tensorflow版本必須大於等於V1.1.0 #

基於K-means Clustering聚類算法對電商商戶進行級別劃分(含Octave仿真)

fprintf highlight 初始 load ogre max init 金額定時在從事電商做頻道運營時，每到關鍵時間節點，大促前，季度末等等，我們要做的一件事情就是品牌池打分，更新所有店鋪的等級。例如，所以的商戶分入SKA,KA,普通店鋪,新店鋪這4個級別，對於

K-均值（K-means）聚類算法

簡單 read 原理包含 append 添加 url 學習 readlines 聚類是一種無監督的學習，它將相似的對象歸到同一個簇中。這篇文章介紹一種稱為K-均值的聚類算法，之所以稱為K-均值是因為它可以發現k個不同的簇，且每個簇的中心采用簇中所含值的均值計算而成。聚

全面了解R語言中的k-means如何聚類？

聚類下面將在iris數據集上演示k-means聚類的過程。先從iris數據集中移除Species屬性，然後再對數據集iris調用函數kmeans，並將聚類結果存儲在變kmeans.result中。在下面的代碼中，簇的數目設置為3。iris2 <- irisiris2$Species <- NULL

使用K-means演算法聚類灰度圖

github資料集: 智慧演算法的課件和參考資料以及實驗程式碼我們可以用k-means演算法將灰度圖分成N個梯度我們知道，一般的彩色影象指的是在RGB顏色空間下的影象，這樣的影象三個通道分別是R（red）G（green）B（blue）。而灰度圖指的是單通道的，將三通道的影象

TF-IDF + K-Means 中文聚類例子 - scala

Demo僅供參考使用spark1.6 import java.io.{BufferedReader, InputStreamReader} import java.util.Arrays import org.ansj.splitWord.analysis.ToAnaly

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

之前也做過聚類，只不過是用經典資料集，這次是拿的實際資料跑的結果，效果還可以，記錄一下實驗過程。首先：確保自己資料集是否都完整，不能有空值，最好也不要出現為0的值，會影響聚類的效果。其次：想好要用什麼演算法去做，K-means，層次聚類還是基於密

K-means均值聚類演算法的原理與實現

轉自：http://blog.csdn.net/xiaolewennofollow/article/details/45541159 K-均值聚類演算法的原理與實現聚類是一種無監督的學習，它將相似的物件歸到同一個簇中，聚類方法幾乎可以應用於所有物件，簇內的物件越相似，聚類的效果越好，本文主要介紹K-均值聚

python_sklearn機器學習算法系列之K-Means(硬聚類演算法)

本文主要目的是通過一段及其簡單的小程式來快速學習python 中sklearn的K-Means這一函式的基本操作和使用，注意不是用python純粹從頭到尾自己構建K-Means，既然sklearn提供了現成的我們直接拿來用就可以了，當然K-Means原理還

非監督學習—K-means演算法聚類學習筆記

非監督學習：無類別標記的一、 K-means 演算法： 1. Clustering 中的經典演算法，資料探勘十大經典演算法之一 2. 引數k 已知引數 k ；然後將事先輸入的n個數據物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚

C++實現K-means，聚類原理解析（並用在圖片畫素點聚類）

最近用到影象中的點的聚類，於是就寫了一個k-means的類。驗證的過程是將一幅圖的所有點的(B, G, R)作為資料點，進行聚類。算出K箇中心類後，對影象中的每個點進行重新上色。按照類別給給每類生成一種隨機色彩。使用該類，可以自定義聚類中心K的個數、資料維度N的大

基於R語言的聚類分析（k-means,層次聚類）

今天給大家展示基於R語言的聚類，在此之前呢，首先談談聚類分析，以及常見的聚類模型，說起聚類我們都知道，就是按照一定的相似性度量方式，把接近的一些個體聚在一起。這裡主要是相似性度量，不同的資料型別，我們需要用不同的度量方式。除此之外，聚類的思想也很重要，要是按照聚

Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）

源資料（這裡僅展示10行）：程式：#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import numpy as np import pandas as pd #引數初始化 inputfile = '../data/consu

Python_sklearn機器學習庫學習筆記（五）k-means（聚類）

# K的選擇：肘部法則如果問題中沒有指定K的值，可以通過肘部法則這一技術來估計聚類數量。肘部法則會把不同K值的成本函式值畫出來。隨著K值的增大，平均畸變程度會減小；每個類包含的樣本數會減少，於是樣本離其重心會更近。但是，隨著K值繼續增大，平均畸變程度的改善效果會不斷減

K-means 和 K-medoids演算法聚類分析

1 聚類是對物理的或者抽象的物件集合分組的過程，聚類生成的組稱為簇，而簇是資料物件的集合。（1）簇內部的任意兩個物件之間具有較高的相似度。（2）屬於不同的簇的兩個物件間具有較高的相異度。 2 相異度可以根據描述物件的屬性值來計算，最常用的度

影象聚類-K均值聚類

最近做的一個東西跟這個相關，本來希望是用深度學習對於沒有標籤的影象資料進行分類，但是通常情況下，深度學習是對有標籤的資料進行學習，目的是用來自動提取特徵，代替傳統的手工提取特徵。因此，比較容易想到，對於無標籤又需要分類的影象資料，可以嘗試先採用聚類來解決. 下面的內容是譯

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

ML: 聚類算法R包-K中心點聚類

logs lib str ini rac 缺點 criterion spa mea K-medodis與K-means比較相似，但是K-medoids和K-means是有區別的，不一樣的地方在於中心點的選取，在K-means中，我們將中心點取為當前clust

CNN autoencoder 先降維再使用kmeans進行影象聚類是不是也可以降維以後進行iforest處理？

import keras from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Activation, Flatten from keras.layers

k-medoid(k中心點)聚類演算法Python實現

k-means演算法有個很大的缺點，就是對孤立點敏感性太高，孤立點即是脫離群眾的點，與眾不同的點，即在顯示中與其他點不是抱在一團的點。為了體現兩者的不同，我特意溫習了一下知識，在構造初始點的時候，自己定義加入了幾個孤立點，使用k-means演算法跑的效果如下：一開始的所有點：（可以看出其

K-means 影象聚類

相關推薦