機器學習實戰（4）—— kNN實戰手寫識別系統

阿新 • • 發佈：2018-12-31

文章目錄

2.3.1 準備資料：將影象轉換為測試向量
2.3.2 使用k-近鄰演算法識別手寫數字
2.4 小結

我：終於到週末了，可以休息一下了！！！來幾把LOL！！！

（叮鈴…叮鈴…叮鈴…）

我：喂，老闆啊？怎麼啦

老闆：小韓啊，在家休息嗎？

我：是啊。

老闆：別休息啦，來加個班，用上次你寫的kNN，做一個手寫識別系統，訓練集和測試集我都發你郵箱了！週日晚上給我！

我：（What？？？大週末的，你讓我加班，老子不幹了！）行，保證寫出來！

行了行了，週末不休息了，開工！

這次我們要構建一個手寫識別系統，為了簡單，我們就只識別0-9。需要識別的數字已經用圖形處理軟體，處理成具有相同的色彩和大小：寬高是32畫素×32畫素的黑白影象。儘管採用文字格式儲存影象不能有效地利用記憶體空間，但是為了方便我們的理解，我們還是將影象轉換為文字格式。示例如下：

然後，我們來看一下，使用kNN構造手寫識別系統的步驟：

收集資料：提供文字檔案。

準備資料：編寫函式classify0()，將影象格式轉換為分類器使用的list格式。

分析資料：在Python命令提示符中檢查資料，確保它符合要求。

訓練演算法：此步驟不適用於k-近鄰演算法。

測試演算法：編寫函式使用提供的部分資料集作為測試樣本，測試樣本與非測試樣本的區別在於測試樣本是已經完成分類的資料，如果預測分類與實際類別不同，則標記為一個錯誤。

使用演算法：本例沒有完成此步驟，若你感興趣可以構建完整的應用程式，從影象中提取數字，並完成數字識別，美國的郵件分揀系統就是一個實際執行的類似系統。

2.3.1 準備資料：將影象轉換為測試向量

老闆給的訓練集在目錄trainingDigits中，其中包含了大約2000個例子，每個數字大概有200個樣本。測試集在目錄testDigits中，其中大約900個測試資料。截圖如下:

每個文字檔名稱下劃線前的數字代表這個文字檔案所代表數字。比如說0_8.txt代表的是數字0的第9個樣本（從0開始計數）。

為了使用我們先前編寫好的分類器，我們必須將影象格式化處理為一個向量。我們將一個32×32的二進位制影象矩陣轉換為1×1024的向量。

好了，程式碼走起來！我們繼續在kNN.py中編寫函式img2vector，程式碼如下：

def 
 img2vector(filename):
    returnVect = zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect

程式碼很簡單，就是將原來32×32轉換成1×1024，這裡我也就不多說什麼了。大家可以自己去測試一下效果。

2.3.2 使用k-近鄰演算法識別手寫數字

上一節我們已經把資料處理成我們想要的格式了，那麼接下來我們就可以將這些資料丟到分類器裡了。直接來看程式碼：

def handwritingClassTest():
    # 1.初始化我們所需要的資料
    hwLabels = []
    trainingFileList = os.listdir('trainingDigits')  # 這裡需要我們提前匯入os模組，listdir可以列出給定目錄下的檔名
    m = len(trainingFileList)  # 獲得訓練樣本數目
    trainingMat = zeros((m, 1024))  # 構造m×1024的矩陣
    
    # 2.迴圈遍歷訓練集中的每個檔案，生成每個數字的向量資訊，儲存在trainingMat中
    for i in range(m):
        fileNameStr = trainingFileList[i]  # 獲得檔名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])  # 獲得該檔案所代表的數字
        hwLabels.append(classNumStr)  # 將檔案所代表的數字其存放在類別標籤中
        trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)  # 資料轉換
    
    # 3.遍歷測試資料資料夾，使用kNN進行測試。
    testFileList = os.listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)  # 獲得測試樣本數目
    for i in range(mTest):
        fileNameStr = testFileList[i]  # 獲得檔名
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])  # 獲得該檔案所代表的數字
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)  # 分類
        print('the classifier came back with: %d, the real answer is: %d' % (classifierResult, classNumStr))
        if classifierResult != classNumStr:
            errorCount += 1.0

    print('\nthe total number of errors is: %d' % errorCount)
    print('\nthe total error rate is: %f' % (errorCount / float(mTest)))

上面程式碼也不難，每一步的具體含義我都給大家寫在註釋中了，所以我也就不多說了。

依賴於機器速度，載入資料集可能要花費很長時間，然後函式開始依次測試每個檔案，我們直接來看輸出的結果：

我們使用k-近鄰演算法識別手寫數字資料集，錯誤率為1.2%。

改變變數k的值、修改函式handwritingClassTest隨機選取訓練樣本、改變訓練樣本的數目，都會對k-近鄰演算法的錯誤率產生影響，感興趣的話可以改變這些變數值，觀察錯誤率的變化。

但是，我們需要注意的是，實際使用這個演算法時，演算法的執行效率並不高。原因如下：

演算法需要為每個測試向量做2000次距離計算，每個距離計算包括了1024個維度浮點運算，總計要執行900次，
此外，我們還需要為測試向量準備2MB的儲存空間。

2.4 小結

kNN的理論、實戰，我們就講到這裡了，下面我們來總結一下：

k-近鄰演算法是分類資料最簡單最有效的演算法，我們通過兩次實戰講述瞭如何使用k-近鄰演算法構造分類器。
k-近鄰演算法是基於例項的學習，使用演算法時我們必須有接近實際資料的訓練樣本資料。
k-近鄰演算法必須儲存全部資料集，如果訓練資料集的很大，必須使用大量的儲存空間。此外，由於必須對資料集中的每個資料計算距離值，實際使用時可能非常耗時。
k-近鄰演算法的另一個缺陷是它無法給出任何資料的基礎結構資訊，因此我們也無法知曉平均例項樣本和典型例項樣本具有什麼特徵。

好了，k-近鄰演算法我們就講到這裡，因為是最基礎的，所以用了比較多的篇幅，希望大家能夠慢慢看完，對機器學習先有一個感性的認識。

機器學習的路還很長，加油，沖沖衝！！！

最後，還是熟悉的配方！

歡迎大家關注我的公眾號，有什麼問題也可以給我留言哦！

機器學習實戰（4）—— kNN實戰手寫識別系統

文章目錄 2.3.1 準備資料：將影象轉換為測試向量 2.3.2 使用k-近鄰演算法識別手寫數字 2.4 小結我：終於到週末了，可以休息一下了！！！來幾把LOL！！！（叮鈴…叮鈴…叮鈴…）我：喂，老闆啊？怎麼啦

機器學習實戰（3）—— kNN實戰約會網站

機器學習實戰（3）—— kNN實戰約會網站老闆：小韓啊，別忘了去改進一下約會網站的配對效果。我：好嘞好嘞！馬上工作！！好了，又要開始一天的工作啦。接著上篇文章老闆佈置的任務，我們來看一下這次實戰的相關資訊。前言老闆的朋友，卡特琳娜一直在使用約會網站尋找適合自己的約會物件。儘管約

機器學習儲備（4）：最常用的求導公式

求導公式在機器學習的梯度下降中經常使用，因為梯度就意味著要求導，所以將使用頻率最高的幾個公式羅列在下面，方便查閱。其中第三個是第二個的特列求導比較重要的一條性質便是鏈式求導法則，它其實並不難理解，因為求導數意味著由外及內的，一層一層地將變化傳遞到最裡頭。例如，要求解

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

參考部落格：超詳細的機器學習python入門knn乾貨（po主Jack-Cui 參考書籍：《機器學習實戰》——第二章 KNN入門第二彈——手寫識別系統demo ——《機器學習實戰》第二章2.3 手寫識別系統 &

機器學習入門（1）--KNN演算法

KNN演算法是一種常用的監督學習方法。生活之中我們想要給一個未知的樣本歸類，通常就是尋找幾個相似事物進行對比。假如，某人看到一隻未知的貓，想知道其屬於什麼品種，往往會在腦海中尋找貓的資訊，當在腦海中發現短尾貓的形態特徵和這隻貓及其相似時，就認為這隻貓是一直短尾貓。 KN

機器學習筆記（4）Logistic回歸

可能性相同模擬我們 inline alt 最小 cas 離散模型介紹對於分類問題，其得到的結果值是離散的，所以通常情況下，不適合使用線性回歸方法進行模擬。所以提出Logistic回歸模型。其假設函數如下： \[ h_θ(x)=g(θ^Tx) \] 函數g定義如

Keras入門實戰（1）：MNIST手寫數字分類

前面的部落格中已經介紹瞭如何在Ubuntu下安裝Keras深度學習框架。現在我們使用 Keras 庫來學習手寫數字分類。我們這裡要解決的問題是：將手寫數字的灰度影象（28 畫素×28 畫素）劃分到 10 個類別中（0~9）。我們將使用 MNIST 資料集，它是機器學

學習KNN（二）KNN演算法手寫數字識別的OpenCV實現

在OpenCV的安裝檔案路徑/opencv/sources/samples/data/digits.png下，有這樣一張圖：圖片大小為1000*2000,有0-9的10個數字，每5行為一個數字，總共50行，共有5000個手寫數字，每個數字塊大小為20

機器學習使用python+OpenCV實現knn演算法手寫數字識別

基本上照搬了http://lib.csdn.net/article/opencv/30167的程式碼，只是改了一點bug和增加了一點功能輸入就是直接在一個512*512大小的白色畫布上畫黑線，然後轉化為01矩陣，用knn演算法找訓練資料中最相近的k個，現在應該是可以對所有字元

機器學習實戰（4）——樸素貝葉斯（下）

一、大概框架1、貝葉斯決策：對某個資料點進行分類，有多個類別供你選擇，我們自然要選擇可能性最大那個，這就是貝葉斯決策的核心思想舉個例子：如果你面前有一個黑人，讓你判斷他是哪個洲的人，給你三個選擇：亞洲人、非洲人、美洲人，你會選擇哪個？哈哈哈，這麼簡單的問題，你居然還問的出口，

機器學習實戰（python）——kNN問題解析

問： 1、import kNN找不到路徑？答：把kNN.py放置python互動式開發環境內方法：import os os.getcwd（）

機器學習筆記（十）：TensorFlow實戰二（深層神經網路）

1 - 深度學習與深層神經網路深度學習的精確定義為：“一類通過多層非線性變換對高複雜性資料建模演算法的集合” 因此，多層神經網路有著2個非常重要的特性多層非線性 1.1 - 線性模型的侷限性線上性模型中，模型的輸出為輸入的加權和，假設一

機器學習筆記（九）：Tensorflow 實戰一（Tensorflow入門）

1 - TsensorFlow計算模型 ——計算圖 1.1- 計算圖的概念計算圖是TensorFlow中最基本的一個概念，TensorFlow中的所有計算都會被轉化為計算圖上的節點。在TensorFlow中，張量可以簡單地理解為多為陣列。如果說TensorFlow的第一個詞T

機器學習筆記（十三）：TensorFlow實戰五（經典卷積神經網路： LeNet -5 ）

1 - 引言之前我們介紹了一下卷積神經網路的基本結構——卷積層和池化層。通過這兩個結構我們可以任意的構建各種各樣的卷積神經網路模型，不同結構的網路模型也有不同的效果。但是怎樣的神經網路模型具有比較好的效果呢？下圖展示了CNN的發展歷程。經過人們不斷的嘗試，誕生了許多有

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

機器學習實戰（第二篇）-k-近鄰演算法開發手寫識別系統

上一篇文章中，我們學習了使用k近鄰演算法改進約會網站，實現了通過一些資料的輸入判斷人員屬於哪一個分類。但是上篇文章基於的資料都是我們能夠簡單理解的數字資訊，本篇文章我們在人不太容易看懂的資料上使用分類器。這篇文章中我們將一步步構造使用k-近鄰分類器的手寫識別系統。為了

機器學習筆記（二）——廣泛應用於資料降維的PCA演算法實戰

最近在學習的過程當中，經常遇到PCA降維，於是就學習了PCA降維的原理，並用網上下載的iris.txt資料集進行PCA降維的實踐。為了方便以後翻閱，特此記錄下來。本文首先將介紹PCA降維的原理，然後進入實戰，編寫程式對iris.資料集進行降維。一、為什麼要進行資料降維？

Python基於AIML智慧聊天機器人實戰（4）- 機器人自學習能力整合

一、前言本文是《Python基於AIML智慧聊天機器人實戰》第四篇：AIML自學習能力整合； AIML是智慧對話機器人具有里程碑意義的開源專案，曾斬獲多項國際大獎，是基於檢索技術的閒聊式智慧對話機器人的基石。在此把過往學習AIML的內容做了專題整理，釋出出

機器學習筆記（1）感知機演算法之實戰篇

我們在上篇筆記中介紹了感知機的理論知識，討論了感知機的由來、工作原理、求解策略、收斂性。這篇筆記中，我們親自動手寫程式碼，使用感知機演算法解決實際問題。先從一個最簡單的問題開始，用感知機演算法解決OR邏輯的分類。 import numpy as np import matplotlib.pyplot as

企業實戰（4）-實現基於Haproxy負載均衡集群的電子商務網站架構

haproxy keepalived 企業實戰：逐步實現企業各種情景下的需求企業情景四：隨著公司業務的發展，公司負載均衡服務已經實現四層負載均衡，但業務的復雜程度提升，公司要求把mobile手機站點作為單獨的服務提供，不在和pc站點一起提供服務，此時需要做7層規則負載均衡，運維總監要求，能否用一種服務

機器學習實戰（4）—— kNN實戰手寫識別系統

文章目錄

2.3.1 準備資料：將影象轉換為測試向量

2.3.2 使用k-近鄰演算法識別手寫數字

2.4 小結

相關推薦