python學習之旅 | k_means演算法python實現

阿新 • • 發佈：2018-12-12

寫在前面

前一段時間看到一篇文章，建議學生時代寫程式碼不要光呼叫庫和複製貼上，而是要儘量每一行程式碼都自己寫。因為以後工作的時候都主要是用別人寫好的東西，就沒有這樣鍛鍊基本功的機會了。

筆者最近入門python，希望能夠通過這些重複造輪子的簡單工作來加強基本功，讀者如果有什麼建議可以在評論區指出。

筆記

matrix, array 還是 list?

numpy包中含有matrix和array兩種常見的資料型別，python內建的list也和他們非常相像。筆者一開始將這三種資料型別混合使用，結果發現要不停地轉換，非常地麻煩，那麼如何解決呢？

首先來比較Matrix和Array兩種資料型別，直接看numpy官網給的結論。

The array is thus much more advisable to use. Indeed, we intend to deprecate matrix eventually. 我們更建議使用array。事實上，我們最終準備棄用matrix這個型別。

那麼在array和list之間又應該如何選擇呢？事實上numpy針對資料的運算做了很多優化，並且大多數的第三方包函式返回的也都是array。因此至少當你在使用Numpy包處理資料的時候，array是一個更好的選擇。

可以看到array是一種更好的資料型別，筆者因此將程式碼中的list和marix全改成了array，程式碼確實順暢了很多。

陣列排序：argsort

這個排序函式筆者一開始老搞錯，在這裡做一筆記：

argsort:

文件如下：

argsort(a, axis=-1, kind=‘quicksort’, order=None) Perform an indirect sort along the given axis using the algorithm specified by the ‘kind’ keyword. It returns an array of indices of the same shape as ‘a’ that index data along the given axis in sorted order. 沿給定的軸執行一種非直接的排序，排序方法可以由kind指定。返回一個和待排陣列’a’相同大小的陣列，該陣列給出了演給定座標軸和排序順序排序後的下標。

axis = 0：按行排列，axis=1：按列排列

例子：

>> x = np.array([6, 4, 2, 5, 5])
>> ind = np.argsort(x) 
>> print(ind)
>> print(x[ind])
[2 1 3 4 0]
[2 4 5 5 6]

對於一維陣列，可以看到argsort返回的是原陣列從小到大排列的下標，ind[0]是最小數字的下標，ind[-1]是最大數字的下標，可以通過x[ind]取得陣列x從小到大的排序序列。

對於多維陣列有：

>> x = np.array([[0, 3, 5], [2, 2, 1], [5, 0, 3]])
>> ind = np.argsort(x)
>> print(x)
>> print(ind)
[[0 3 5]
 [2 2 1]
 [5 0 3]]
[[0 1 2]
 [2 0 1]
 [1 2 0]]

可以看到對於二維陣列不能再用x[ind]，但可以用x[ind[i, :]]取得每個一維陣列第i大的排序值。

程式碼

優化前

import csv
import numpy as np
import cmath
import matplotlib.pyplot as plt
from sklearn import preprocessing as prp
import scipy


def k_means(k, x):
    init_center = np.random.randint(0, len(x) - 1, k)
    center = [x[i, :] for i in init_center]
    cost_new = 1
    cost_old = 0
    while abs(cost_old - cost_new) >= 0.0001:
        # 將各樣本分配到離他們最近的center
        d = []
        for j in range(k):
            d_sam_cen1 = [np.linalg.norm(center[j] - x[i, :]) for i in range(len(x))]
            d.append(d_sam_cen1)
        h = np.mat(d).T.argsort()
        flag = np.argwhere(h == 0)[:, 1]
        index = [np.argwhere(flag == i) for i in range(k)]
        # 將各樣本的平均值作為新的center
        group = []
        for i in range(k):
            group_i = [x[index[i][j]] for j in range(len(index[i]))]
            group.append(group_i)
        center = [np.mean(group[i], axis=0) for i in range(k)]
        d2 = []
        for i in range(k):
            for j in range(len(group[i])):
                d2.append(np.linalg.norm(center[i] - group[i][j]))
        cost_old = cost_new
        cost_new = np.array(d2).var()
    print(cost_new)
    return flag, group

# 資料匯入
filename = 'E:\Administrator\OneDrive\文件\學校課程\模式識別\pr_homework\homework_03_kmeans\dataset_circles.csv'
with open(filename) as f:
    reader = csv.reader(f)
    data = list(reader)
# 資料預處理
data = np.mat(data).astype(np.float)
dataRec = data[:, 0:2]
dataFlag = data[:, 2]
dataComplex = [complex(dataRec[i, 0], dataRec[i, 1])for i in range(len(dataRec))]
dataPolar = np.mat([cmath.polar(dataComplex[i]) for i in range(len(dataComplex))])
ss = prp.StandardScaler().fit(dataPolar)
staPolar = ss.transform(dataPolar)
# 資料計算
k = 2
staFlag, staGro = k_means(k, staPolar)
unStaFlag, unStaGro = k_means(k, dataPolar)
# 資料恢復
staGro = [np.matrix(np.array(staGro[i])) for i in range(k)]
unStaGro = [np.matrix(np.array(unStaGro[i])) for i in range(k)]
unStaRec = []
staGroRec = []
for i in range(k):
    unStaRec.append([cmath.rect(unStaGro[i][j, 0], unStaGro[i][j, 1])
                     for j in range(len(unStaGro[i]))])
    unStaRec[i] = np.matrix([[unStaRec[i][j].real, unStaRec[i][j].imag]
                             for j in range(len(unStaRec[i]))])
    temp_i = ss.inverse_transform(staGro[i])
    staGroRec.append([cmath.rect(temp_i[j, 0], temp_i[j, 1])
                     for j in range(len(temp_i))])
    staGroRec[i] = np.matrix([[staGroRec[i][j].real, staGroRec[i][j].imag]
                             for j in range(len(staGroRec[i]))])
# print(cmath.rect(unStaGro[0][1, 0], unStaGro[0][1, 0]))
# print(un)

# np.mat(unstaflag)
plt.figure()
plt.title('without standardizing')
for i in range(k):
    style = ['ro', 'bo', 'yo', 'go', 'co']
    plt.plot(unStaRec[i][:, 0], unStaRec[i][:, 1], style[i])
plt.show()
plt.figure()
plt.title('with standardizing')
for i in range(k):
    style = ['ro', 'bo', 'yo', 'go', 'co']
    plt.plot(staGroRec[i][:, 0], staGroRec[i][:, 1], style[i])
plt.show()

優化後

import numpy as np
import cmath
import matplotlib.pyplot as plt
from sklearn import preprocessing as prp


def k_means(k, x):
    # x是一個(m,2)維的陣列
    init_center = np.random.randint(0, len(x) - 1, k)
    center = [x[i, :] for i in init_center]
    cost_new = 1
    cost_old = 0
    flag = 0
    while cost_old != cost_new:
        # 將各樣本分配到離他們最近的center
        d = []
        for j in range(k):
            d_sam_cen1 = [np.linalg.norm(center[j] - x[i, :]) for i in range(len(x))]
            d.append(d_sam_cen1)
        flag = np.array(d).T.argsort()[:, 0]
        group = [x[np.argwhere(flag == i)[:, 0]] for i in range(k)]
        # 將各樣本的平均值作為新的center
        center = [np.mean(group[i], axis=0) for i in range(k)]
        # 計算新center的代價函式
        d2 = [np.linalg.norm(center[i] - group[i], axis=1) for i in range(k)]  # [array*3]
        cost_old = cost_new
        cost_new = np.mean([np.mean(np.array(d2[i])) for i in range(k)])
    return flag


def rectangular_polar(x):
    # x 位(m, 2)維的陣列，第一列維x座標，第二列為y座標
    x_complex = [complex(x[i, 0], x[i, 1]) for i in range(len(x))]
    x_polar = np.array([cmath.polar(x_complex[i]) for i in range(len(x_complex))])
    return x_polar


if __name__ == '__main__':
    # 資料匯入和預處理
    data = np.loadtxt('dataset_circles.csv', delimiter=',')
    dataRect = data[:, 0:2]
    dataPolar = rectangular_polar(dataRect)
    staPolar = prp.StandardScaler().fit(dataPolar).transform(dataPolar)
    # 資料計算
    k1 = 2
    staFlag = k_means(k1, staPolar)
    unStaFlag = k_means(k1, dataPolar)
    # 資料plot
    plt.scatter(data[:, 0], data[:, 1], c=staFlag)
    plt.show()
    plt.scatter(data[:, 0], data[:, 1], c=unStaFlag)
    plt.show()

除了k_means這個函式本身，我對載入資料和畫圖部分也都做了改進，感覺還是蠻有收穫的。

python學習之旅 | k_means演算法python實現

寫在前面前一段時間看到一篇文章，建議學生時代寫程式碼不要光呼叫庫和複製貼上，而是要儘量每一行程式碼都自己寫。因為以後工作的時候都主要是用別人寫好的東西，就沒有這樣鍛鍊基本功的機會了。筆者最近入門python，希望能夠通過這些重複造輪子的簡單工作來加強基本功，

Python學習之旅：使用Python實現Linux中的ls命令

一、寫在前面　　前幾天在微信上看到這樣一篇文章，連結為：https://mp.weixin.qq.com/s/rl6Sgv3uk_IpoFAx6cWa8w，在這篇文章中，有這樣一段話，吸引了我的注意：　　　　在 Linux 中 ls 是一個使用頻率非常高的命令了，可選的引數也有很多，

Python學習之旅：用Python製作一個打字訓練小工具

一、寫在前面　　說道程式設計師，你會想到什麼呢？有人認為程式設計師象徵著高薪，有人認為程式設計師都是死肥宅，還有人想到的則是996和 ICU。　　　　別人眼中的程式設計師：飛快的敲擊鍵盤、酷炫的切換螢幕、各種看不懂的字元程式碼。　　然而現實中的程式設計師呢？對於很多程式設計師來說，沒有百度和

機器學習之決策樹演算法python實現

一. 理論基礎 1. 特徵選擇 a. 資訊熵 H(D)=−∑i=0kpilogpi b. 條件熵 H(Y|X)=∑i=0npiH(Y|X=xi) c. 資訊增益 I(D,A)=H(D)−H(D|A) d. 資訊增益比

Python學習之旅—Day03

系列 mil 執行成了地址可能 %d 基本用法方式 ---恢復內容開始--- 前言　　前面兩次博客對Python的安裝以及相關基礎內容進行了整理和介紹，本次博客內容主要專註於解決字符串，列表，元組，字典等四大數據類型的主要用法。涉及到的基本用法本文在此不再贅述，因

Python學習之旅—Day04

不同的 iteration 例如恢復 del 知識推薦動態刪除初學者前言：前面三篇博客對Python的基礎知識點進行了相關總結和整理，今天的博客主要專註於解決前面一些知識點的疑難點，並在此基礎上補充一些知識點，以此來加深對相關知識點的理解。

Python學習之旅—Day05(文件操作)

big 這份案例最終 lis remove 方法表 == offset 前言：前面5篇博客主要對Python的相關基礎知識和重點疑難問題進行了相關整理，本篇博客主要針對文件操作相關知識點來做一個系統性的梳理，以期幫助大家快速掌握文件操作的知識。

Python學習之旅—Day07(生成器與叠代器)

討論三次 iterable 結果 fis post 工作映射我們前言　　　　本篇博客主要專註於解決函數中的一個重要知識點——生成器與叠代器。不管是面試還是工作，生成器與叠代器在實際工作中的運用可以說是非常多，從我們第一天開始學習for循環來遍歷字典，列表等數據類

Python學習之旅—面向對象進階知識：類的命名空間，類的組合與繼承

ati error role ont 之前 obj say 報錯抽象前言　　上篇博客筆者帶領大家初步梳理了Python面向對象的基礎知識，本篇博客將專註於解決三個知識點：類的命名空間，類的組合以及面向對象的三大特性之一繼承，一起跟隨筆者老看看今天的內容吧。 1.

Python學習之旅

tag 大小表示建模希望程序設計 amd64 2.3 .com 前言　　偶然看到廖雪峰老師寫的《Python教程》被其通俗易懂的語言深深吸引，於是就如饑似渴般沈侵其中。從python簡介開始一直到最後完成實戰項目差不多半個多月時間，收貨頗豐，疑惑也不少，於是希望

Python學習之旅—Mysql數據庫之數據類型和約束

都是 warnings there 結構 clas 體重 set集合 scale 自增前言　　　本篇博客我們主要專註於解決Mysql數據庫中的數據類型和約束，將重點聚焦於字符類型，日期類型，集合類型和主鍵和unique等知識點，希望各位可以好好掌握今天的知識點。一.整

Python學習之路：裝飾器實現

fun python run top 學習 pytho sleep light time() import time def timer(func):#timer(test1) func=test1 def deco(): start_time

Python學習之路：裝飾器實現終極版

index type after color return 結果 python turn 調用網站實現驗證功能裝飾器： import time user,passwd=‘alex‘,‘abc123‘ def auth(func): def wrapper(*ar

我的Python學習之旅（02）

我的Python學習之旅（02）基本資料型別及變數的使用 list和tuple 條件判斷和迴圈 dict和set 好，接著上次的話題來說說Python的資料型別首先，說個題外話，推薦學習python的大家去看看廖雪峰老師的部落格，講得

我的Python學習之旅（01）

我的Python學習之旅（01）初識Python Hello World Python的輸入輸出基本資料型別及變數的使用 list和tuple 條件判斷和迴圈 dict和set Python概要 Python

Python學習之旅（一）

Python的簡介 Python是一種面向物件的、動態的指令碼語言，可用來設計網頁和開發後臺功能。其創始人Guido van Rossum於1989年聖誕節期間創造了這門語言。（圖片來自百度） Python的種類 CPython Jython IronPython PyPy …… 與J

python學習之旅（二）

Python基礎知識（1）一、變數變數名可以由字母、數字、下劃線任意組合而成。注意：1.變數名不能以數字開頭； 2.變數名不能為關鍵字； &n

python學習之旅（六）

Python基礎知識（5）：基本資料型別之字串（Ⅱ）字串方法 17.join：對字串進行拼接 x="can" y="li" y.join(x) 結果： 'clialin' 18.ljust、rjust使字串左（右對齊），並用某個字元對右（左端）進行填充 se

Python學習之旅（八）

Python基礎知識（7）：資料基本型別之元組、字典一、元組用括號把元素括起來中間用逗號隔開。用逗號分開一些值便可建立元組 1,2,3 結果： (1, 2, 3) 空元組可以用沒有包含任何內容的兩個圓括號表示，如（）。 1、元素不可被修改，不能進行增加、刪除操作 2、建議寫元組的

Python學習之旅（七）

Python基礎知識（6）：基本資料型別之列表在Python中，最基本的資料結構是序列。序列中的每個元素被分配一個序號——即元素的位置，也稱為索引。第一個索引從0開始，如果要從右邊開始，序列中的最後一個元素標記為-1，倒數第二個標記為-2，以此類推。Python包含6種內建序列：字串、列表、元組、Unic

python學習之旅 | k_means演算法python實現

寫在前面

筆記

matrix, array 還是 list?

陣列排序：argsort

argsort:

程式碼

優化前

優化後

相關推薦