TensorFlow實現K-means演算法

阿新 • • 發佈：2019-01-05

正如標題所示：利用 tf 實現k-means演算法

由於我也是菜雞一隻，把程式碼註釋寫在這裡，給和我一樣是菜雞的人看。如果有哪裡註釋不對，或者不夠科學的地方，還請各位指正。

本文的主要程式碼來自於這篇部落格，更改了此篇部落格中 tf 減法運算函式錯誤，https://blog.csdn.net/yhhyhhyhhyhh/article/details/54429034
感謝這位大佬提供的程式碼指示，對我的程式碼編寫起到了很大的作用，然後根據自己的理解對每一行程式碼進行註釋。

首先看看最後的效果實現。
1、生成的原資料圖：
在這裡插入圖片描述

2、分類後的資料圖：
在這裡插入圖片描述

3、k-means演算法的流程圖：

4、Tensor圖示
在這裡插入圖片描述

5、其中程式碼註釋如圖：
在這裡插入圖片描述

6、完整的程式碼如下（這樣都看不懂，我也沒有辦法了。）：

# -*- coding: utf-8 -*-
import numpy as np
from numpy.linalg import cholesky
import matplotlib.pyplot as plt
import tensorflow as tf
from random import shuffle  # 用於打亂資料
from numpy import array
import pandas as pd
import seaborn as sns

# 1、生成隨機測試資料
sampleNo = 1000  # 資料數量
mu = 3
# 產生二維正態分佈資料,加大資料之間的差異
mu = np.array([[1, 5]])

Sigma = np.array([[1, 0.5],
                  [1.5, 3]])
# 返回L的下三角陣
R = cholesky(Sigma)

# dot運算為矩陣的點積(矩陣相乘),srcdata儲存的實際是模擬產生的所有點
srcdata = np.dot(np.random.randn(sampleNo, 2), R) + mu

# 畫出當前的所有點
plt.plot(srcdata[:, 0], srcdata[:, 1], 'bo')


# 2、定義K-means演算法

# 2.1 、定義K-means演算法函式
def kmeans(vectors, k_num):
    """
    使用 TensorFlow 實現K-Means 演算法
    :param vectors: 是一個 n * k 的Numpy陣列，n代表k維向量的數量，也就是模擬產生的資料點的Tensor
    :param k_num: 表示需要分類的個數,是一個整數
    """
    # 將 k 轉換為整數
    k_num = int(k_num)

    # 異常處理，防止後續陣列下標越界,防止出現分類個數大於實際的點的個數，如分4類，然而只有2個點的情況
    assert k_num < len(vectors)

    # 找出每個向量的維度,平面點的維度為2(x,y)，空間點維度為3(x,y,z)
    dim = len(vectors[0])

    # 獲取 vectors 長度大小的隨機資料(本例中為1000)
    vector_indices = list(range(len(vectors)))

    # 打亂 vector_indices 中的所有資料，能夠更好的泛化
    shuffle(vector_indices)

    # 計算圖
    # 我們建立了一個預設的計算流的圖用於整個演算法中，這樣就保證了當函式被多次呼叫
    # 時，始終使用的是預設的圖
    # https://www.cnblogs.com/studylyn/p/9105818.html
    graph = tf.Graph()
    with graph.as_default():
        # 建立會話
        with tf.Session() as sess:
            # 構建基本的計算的元素
            # 首先我們需要保證每個中心點都會存在一個Variable矩陣
            # 從現有的點集合中 vector_indices 抽取出前 k_num 個數據作為預設的中心點,並且定義為 tf 的變數,
            # 用於後續的中心點的運算
            centroids = [tf.Variable((vectors[vector_indices[i]]))for i in range(k_num)]

            # 建立一個placeholder用於存放各個分類的中心點
            centroid_value = tf.placeholder(dtype=tf.float64, shape=[dim])

            # centroid_value = tf.placeholder("float64", [dim])

            # 給 k_num 箇中心點向量進行賦值,cent_assigns 用於儲存中心點的位置資訊
            cent_assigns = []
            for centroid in centroids:
                cent_assigns.append(tf.assign(centroid, centroid_value))

            # assignments 用於儲存 sampleNo 個點的經過計算分類後位置
            assignments = [tf.Variable(0) for i in range(len(vectors))]
            # 儲存每個單獨的點到 k_num 個分類的最短距離
            assignment_value = tf.placeholder(dtype=tf.int32)
            # cluster_assigns 的大小是 sampleNo = 1000,儲存的是每個點到 k_num 箇中心點中的最小的一個距離
            cluster_assigns = []
            # 初始化 cluster_assigns
            for assignment in assignments:
                cluster_assigns.append(tf.assign(assignment, assignment_value))

            # 下面建立用於計算平均值的操作節點
            # 輸入的placeholder
            mean_input = tf.placeholder(dtype=tf.float64, shape=[None, dim])
            # 節點/OP接受輸入，並且計算0維度的平均值，如輸入的向量列表
            mean_op = tf.reduce_mean(mean_input, 0)

            # 用於計算歐幾里得距離的節點 distance = ((x1 - x2)^2 + (y1 - y2)^2)^(1/2)
            v1 = tf.placeholder(dtype=tf.float64, shape=[dim])
            v2 = tf.placeholder(dtype=tf.float64, shape=[dim])
            # 注意：tf.mul  tf.sub   tf.neg 已經廢棄, 分別可用tf.multiply  tf.subtract  tf.negative替代.
            euclid_dist = tf.sqrt(tf.reduce_sum(tf.pow(tf.subtract(v1, v2), 2)))

            # 這個OP會決定應該將向量歸屬到哪個節點
            # 基於向量到中心點的歐幾里得距離
            # Placeholder for input
            centroid_distances = tf.placeholder(dtype=tf.float64, shape=[k_num])
            # cluster_assignment 計算 k_num 箇中心點的最短歐幾里得距離
            cluster_assignment = tf.argmin(centroid_distances, 0)

            # 初始化所有的狀態值,Variable_initializer應該定
            # 義在所有的Variables被構造之後，這樣所有的Variables才會被納入初始化
            init_op = tf.global_variables_initializer()

            # 初始化所有的變數
            sess.run(init_op)

            # 建立tensor圖,並儲存在當前的log目錄下
            tf.summary.FileWriter("./log", sess.graph)

            # 叢集遍歷
            # 接下來在K-Means聚類迭代中使用最大期望演算法。為了簡單起見，只讓它執行固
            # 定的訓練的次數為20次，而不設定一個終止條件
            noofiterations = 20
            for iteration_n in range(noofiterations):

                # 期望步驟
                # 基於上次迭代後算出的中心點的位置
                # 1.首先遍歷所有的向量,len(vectors)在此案例中值為 sampleNo = 1000
                # 計算每個點到 k_num 個分類中心點的最短距離,並存儲在 cluster_assigns 中
                for vector_n in range(len(vectors)):
                    # 獲取第 vector_n 個向量,取值範圍在[0,999]
                    vect = vectors[vector_n]

                    # 當前點與 k_num 個分類的中心點歐幾里得距離
                    distances = [sess.run(euclid_dist, feed_dict={
                        v1: vect, v2: sess.run(centroid)}) for centroid in centroids]

                    # 獲取當前點到 k_num 個分類中心點的最短距離,目的是為了後續選擇最近距離的中心點
                    assignment = sess.run(cluster_assignment, feed_dict={
                        centroid_distances: distances})

                    # 接下來為每個向量分配合適的值
                    sess.run(cluster_assigns[vector_n], feed_dict={
                        assignment_value: assignment})

                # 2.將所有點進行分類
                # 基於上述的期望步驟，計算每個新的中心點的距離從而使叢集內的平方和最小
                for cluster_n in range(k_num):
                    # 收集 k_num 個分類中,對應每個分類的資料
                    assigned_vects = [vectors[i] for i in range(len(vectors))
                                      if sess.run(assignments[i]) == cluster_n]

                    # 採用平均值的計算方式重新計算每個分類叢集新的中心點
                    new_location = sess.run(mean_op, feed_dict={
                        mean_input: array(assigned_vects)})

                    # 為 k_num 個分類分配新的中心點
                    sess.run(cent_assigns[cluster_n], feed_dict={
                        centroid_value: new_location})

            # 返回 k_num 箇中心節點
            centroids = sess.run(centroids)
            # 返回 k_num 個分組
            assignments = sess.run(assignments)

            return centroids, assignments


# 2.2、定義聚類的個數,並使用kmeans演算法去計算
k = 4
center, result = kmeans(srcdata, k)

print np.shape(result)


# 列印 k 箇中心點
print center

# 3、整理結果,並且使用 seaborn 畫圖
res = {"x": [], "y": [], "kmeans_res": []}

for i in xrange(len(result)):
    res["x"].append(srcdata[i][0])
    res["y"].append(srcdata[i][1])
    res["kmeans_res"].append(result[i])

pd_res = pd.DataFrame(res)
sns.lmplot("x", "y", data=pd_res, fit_reg=False, height=5, hue="kmeans_res")
plt.show()

TensorFlow實現K-means演算法

正如標題所示：利用 tf 實現k-means演算法由於我也是菜雞一隻，把程式碼註釋寫在這裡，給和我一樣是菜雞的人看。如果有哪裡註釋不對，或者不夠科學的地方，還請各位指正。本文的主要程式碼來自於這篇部落格，更改了此篇部落格中 tf 減法運算函式錯誤，https://blog.

spark 實現K-means演算法

spark 實現K-means演算法 package kmeans; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFou

java實現K-means演算法，k-means聚類演算法原理

/** * 需要所有point 以及族中心list * * @author:Yien * @when:2018年5月20日下午3:14:09 * @Description:TOD

Spark實現K-Means演算法

import org.apache.log4j.{Level,Logger} import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.clustering.KMeans import org.ap

Python實現k-means演算法

這也是周志華《機器學習》的習題9.4。資料集是西瓜資料集4.0，如下編號,密度,含糖率 1,0.697,0.46 2,0.774,0.376 3,0.634,0.264 4,0.608,0.318 5,0.556,0.215 6,0.403,0.23

java實現k-means演算法（用的鳶尾花iris的資料集，從mysq資料庫中讀取資料）

k-means演算法又稱k-均值演算法，是機器學習聚類演算法中的一種，是一種基於形心的劃分方法，其中每個簇的中心都用簇中所有物件的均值來表示。其思想如下：輸入： k：簇的數目；D：包含n個物件的資料集。輸出：k個簇的集合。方法：從D中隨機選擇幾個物件作為起始質心

使用Java實現K-Means聚類演算法

第一次寫部落格，隨便寫寫。關於K-Means介紹很多，還不清楚可以查一些相關資料。個人對其實現步驟簡單總結為4步: 1.選出k值,隨機出k個起始質心點。 2.分別計算每個點和k個起始質點之間的距離,就近歸類。 3.最終中心點集可以劃分為k類,

k-means演算法及opencv實現

K-means演算法是最為經典的基於劃分的聚類方法，是十大經典資料探勘演算法之一。K-means演算法的基本思想是：以空間中k個點為中心進行聚類，對最靠近他們的物件歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。假設要把樣本集分為c個類別，演算法

K-means演算法及python sklearn實現

目錄前言例項推演 K值的確定輪廓係數 K-means演算法前言根據訓練樣本是否包含標籤資訊，機器學習可以分為監督學習和無監督學習。聚類演算法是典型的無監督學習，其訓練樣本中只包含樣本特徵，不包含樣本的標

k-means演算法的Java實現

前言 k-means演算法是一種基於樣本間相似性度量的間接聚類方法，屬於非監督學習方法。通過指定k值將資料自動迭代分成k組，實現資料分類，然後可對分類好的資料進行進一步的研究。演算法原理 1.在資料中隨機選取k個數據作為聚類中心 2.計算其他資料到k個聚類中

Python實現K-Means聚類演算法

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python從入門到深度學習》，歡迎大家關注~

k-means演算法及python實現

本篇文章主要講解聚類分析中的一種常用的演算法k-means，它的全稱叫作k均值演算法。 k-means原理 k-means演算法是一種基於原型的、劃分的聚類技術。基於原型可以理解為基於質心，也就是說，每個物件到定義該簇質心的距離比到其他簇質心的距離更近。當質心沒有意義

python 實現周志華機器學習書中 k-means 演算法

hello，all 上節採用python實現了決策樹，本節使用python實現k-means演算法，後一節將會採用map-reduce實現k-means演算法演算法程式如下：演算法程式碼如下： # coding=utf-8 import pprint import

k-Means演算法Matlab實現

clc; clear; %讀取資料檔案,生成點矩陣 fileID = fopen('D:\matlabFile\data.txt'); C=textscan(fileID,'%f %f'); fclose(fileID); %顯示陣列結果 %celldisp(C);

簡單的K-means演算法C語言實現程式碼

K-means演算法是很典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。演算法過程如下： 1）從N個樣本隨機選取K個樣本作為質心 2）對剩餘

（二）k-means演算法原理以及python實現

一、有監督學習和無監督學習 1. 有監督學習監督學習（supervised learning）：通過已有的訓練樣本（即已知資料以及其對應的輸出）來訓練，從而得到一個最優模型，再利用這個模型將所有新的資料樣本對映為相應的輸出結果，對輸出結果進行簡單的判斷從而

【Python】k-means演算法實現

# -*- coding: utf-8 -*- import math import random import matplotlib.pyplot as plt from matplotlib import colors as m_colors #生成樣本點 def g

【Java】K-means演算法Java實現以及影象分割（續）

import java.awt.Color; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; public class

k-means++演算法的c++實現

k-means++是機器學習領域一種基本的聚類演算法，是k-means演算法的增強版，與k-means演算法的唯一區別就在於初始點的選擇上。眾所周知，通常情況下，k-means選擇初始點都是以一種隨機的方式選擇的，選擇的初始點的好壞，對聚類的效果以及演算法的迭代次數上都有

k-means演算法實現影象顏色聚類

#include<stdio.h> #include <cstdio> #include<string> #include<math.h> #include<stdlib.h>

TensorFlow實現K-means演算法

相關推薦