基於SVM和KNN的手寫數字的識別（分類）——小試牛刀篇

阿新 • • 發佈：2019-01-06

下面分別採用的是k近鄰演算法（KNN）和SVM實現的手寫數字識別。

python實現程式碼：

# -*- coding: utf-8 -*-
import os
import numpy as np

def img2vector(filename, label): #影象資料轉為向量
    f = open(filename,'r')
    row_data = f.read()
    row_data = row_data.replace('\n','')  #換行符轉為空格
    row_data = row_data + label
    row_data = np.array(map(int, list(row_data)))  #將string轉為np.array
    return row_data

#k緊鄰(KNN)分類演算法
def classify0(rowX, dataSet, k): 
    '''
    rowX是待分類的向量, dataSet是標記好的訓練集, k表示選擇最近鄰居的數目
    '''
    #距離計算：絕對值距離
    dataSetSize = dataSet.shape[0]
    #print dataSetSize
    rowMat = np.zeros((dataSetSize, 1025), np.int)
    for i in range(dataSetSize):
        rowMat[i] = rowX
    diffMat = rowMat - dataSet
    label0 = dataSet[:,1024]         #取出訓練集label
    diffMat2 = diffMat[:,0:1024]    #差分矩陣去除label列
    diffMat3 = diffMat2**2  #差分矩陣的平方，即是絕對值
    dis = diffMat3.sum(axis = 1)  #沿行求和，即是該待分類向量與訓練集中每條資料的距離
    
    #選擇距離最小的k個點
    sortedIndice = dis.argsort()
    #print sortedIndice
    vote_label = np.zeros((1,10), np.int)
     
    for i in range(k):
        label= label0[sortedIndice[i]] #獲取第i小距離的label
        vote_label[0,label] = vote_label[0,label] + 1
    sorted_vote = vote_label.argsort()
    #print sorted_vote
    return sorted_vote[0,9]
    
    
    
#將訓練集資料儲存到np陣列train_data中
train_dir = 'trainingDigits\\'   
train_filename = os.listdir(train_dir)  #獲取trainingDigits目錄下的檔名
m = len(train_filename)
train_data = np.zeros((m,1025), np.int)
for i in range(0, m):
    label = train_filename[i].split('_')[0]
    row = img2vector(train_dir +  train_filename[i], label)
    train_data[i] = row

#將測試集資料儲存到np陣列test_data中
test_dir = 'testDigits\\'   
test_filename = os.listdir(test_dir)  #獲取trainingDigits目錄下的檔名
m = len(test_filename)
test_data = np.zeros((m,1025), np.int)
test_result = np.zeros((m,1),np.int)
for i in range(0, m):
    label = test_filename[i].split('_')[0]
    test_result[i] = int(label)  #儲存測試集正確的分類
    row = img2vector(test_dir +  test_filename[i], '0')   #測試集初始分類設定為0
    test_data[i] = row

cc = 0

for i in range(m):
    ll = classify0(test_data[i], train_data, 5)
    #print ll,test_result[i]
    if ll == test_result[i]:
        cc = cc + 1
    else:
        print i,ll,test_result[i]
    
print '正確率是：%f' %(float(cc)/float(m))

執行結果如下圖：

輸出的每一行表示分類錯誤的資料，每一行的第1列是測試集的id，第2列是KNN演算法分類的結果，第三列是正確的分類結果。

svm實現手寫字型分類，程式碼如下：

# -*- coding: utf-8 -*-
import os
from sklearn import svm

def img2vector(filename): #影象資料轉為list
    f = open(filename,'r')
    row_data = f.read()
    row_data = row_data.replace('\n','')  #換行符轉為空格
    row_data = list(row_data)
    for i in range(len(row_data)):
        row_data[i] = int(row_data[i])
    return row_data

train_dir = 'trainingDigits\\'   
train_filename = os.listdir(train_dir)  #獲取trainingDigits目錄下的檔名
m = len(train_filename)

X = []
Y = []
for i in range(0, m):
    label = train_filename[i].split('_')[0]
    Y.append(int(label))
    row = img2vector(train_dir +  train_filename[i])
    X.append( row )

clf = svm.SVC(decision_function_shape='ovo')
clf.fit(X, Y) 

test_dir = 'testDigits\\'   
test_filename = os.listdir(test_dir)  #獲取trainingDigits目錄下的檔名
m = len(test_filename)
X_test = []
Y_test = []

for i in range(0, m):
    label = test_filename[i].split('_')[0]
    Y_test.append(int(label))  #儲存測試集正確的分類
    row = img2vector(test_dir +  test_filename[i])   
    X_test.append(row)
ans = clf.predict(X_test)

cc = 0
ll = len(ans)
for i in range(ll):
    if Y_test[i] == ans[i]:
        cc +=1
    else:
        print "分錯的檔案為%s,被分類為%d" %(test_filename[i],ans[i])

print '正確率是：%f' % (1.0*cc/ll)

執行結果：

參考資料：

1、機器學習實戰

2、http://scikit-learn.org/stable/modules/svm.html#svm

基於tensorflow的MNIST手寫數字識別（二）--入門篇

一、本文的意義因為谷歌官方其實已經寫了MNIST入門和深入兩篇教程了，那我寫這些文章又是為什麼呢，只是抄襲？那倒並不是，更準確的說應該是筆記吧，然後用更通俗的語言來解釋，並且補充

基於tensorflow的MNIST手寫數字識別（三）--神經網路篇

想想還是要說點什麼抱歉啊，第三篇姍姍來遲，確實是因為我懶，而不是忙什麼的，所以這次再加點料，以表示我的歉意。廢話不多說，我就直接開始講了。加入神經網路的意義前面也講到了，使用普通的訓練方法，也可以進行識別，但是識別的精度不夠高，

基於SVM和KNN的手寫數字的識別（分類）——小試牛刀篇

下面分別採用的是k近鄰演算法（KNN）和SVM實現的手寫數字識別。 python實現程式碼： # -*- coding: utf-8 -*- import os import numpy as np def img2vector(filename, label): #

MachineLearning— (KNN)k Nearest Neighbor實現手寫數字識別（三）

本篇博文主要結合前兩篇的knn演算法理論部分knn理論理解（一）和knn理論理解（二），做一個KNN的實現，主要是根據《機器學習實戰》這本書的內容，一個非常經典有趣的例子就是使用knn最近鄰演算法來實現對手寫數字的識別，下面將給出Python程式碼，儘量使用詳盡的解

MNIST手寫數字識別（二）幾種模型優化方式介紹

本篇的主要內容有：動態衰減法設定可變學習率為損失函式新增正則項滑動平均模型介紹為了讓MNIST數字識別模型更準確，學習幾種常用的模型優化手段：學習率的優化學習率的設定一定程度上也會影響模型的訓練，如果學習率過小，那麼將會經過很長時間才會收斂到想要

MNIST手寫數字識別（三）應用優化

本篇的主要內容應用三種優化方式，對之前的模型進行優化介紹一些在程式中用到的函式學習於《TensorFlow實戰Google深度學習框架》一書程式相比於第一次的簡單邏輯迴歸模型，這一次的調整了網路結構，添加了一個500個節點的隱藏層，在結構中，設定了

手寫數字識別（一）

在學習識別手寫輸入數字時，初始化矩陣那裡，有點不理解。原始碼是這樣的：self.biases=[np.random.randn(y,1) for y in sizes[1:]] '''建立一個偏差向量''' self.weights=[np.random.ra

MNIST 手寫數字識別（一）

MNIST 手寫數字識別模型建立與優化本篇的主要內容有： TensorFlow 處理MNIST資料集的基本操作建立一個基礎的識別模型介紹 SoftmaxSoftmaxSoftmax迴歸以及交叉熵等 MNIST是一個很有名的手寫數字識別資料集（基本可以算

【機器學習--opencv3.4.1版本基於Hog特徵描述子Svm對經典手寫數字識別】

方向梯度直方圖（Histogram of Oriented Gradient, HOG）特徵是一種在計算機視覺和影象處理中用來進行物體檢測的特徵描述子。HOG特徵通過計算和統計影象區域性區域的梯度方向直方圖來構成特徵。 #include <iostream> #inc

基於opencv的手寫數字識別（MFC,HOG,SVM）

因為本程式是提取HOG特徵，使用SVM進行分類的，所以大概瞭解下HOG的一些知識，其中我覺得怎麼計算影象HOG特徵的維度會對程式瞭解有幫助關於HOG，我們可以參考： http://gz-ricky.blogbus.com/logs/85326

[分享] Python實現的基於深度學習的手寫數字識別演算法

本文將採用深度學習中的卷積神經網路來訓練手寫數字識別模型。使用卷積神經網路建立合理的模型結構，利用卷積層中設定一定數目的卷積核（即濾波器），通過訓練資料使模型學習到能夠反映出十個不同手寫提數字特徵的卷積核權值，最後通過全連線層使用softmax函式給出預測數字圖對應每種數字可能性的概率多少。本文以學習基於

機器學習實戰--KNN手寫數字識別

程式碼： import numpy as np import operator import matplotlib import matplotlib.pyplot as plt import os def classfy0KNN(intX,dataset,labels

機器學習--knn手寫數字識別系統

0.k近鄰演算法剛接觸java，並且在學習機器學習的相關演算法，knn又非常的易於實現，於是就有了這個小系統。 1.knn演算法簡介：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中的每一個數據都有標籤，即我們知道樣本集中的每一個數據的特徵和對應的型別。當輸入沒有標

機器學習實戰例項之手寫數字識別（KNN、python3）

from numpy import * from os import listdir import operator def img2Vector(filename): returnVecter = zeros((1,1024)) fr = open(fil

機器學習--手寫數字識別（KNN、決策樹）

KNN 及決策樹演算法為監督學習中的兩種簡單演算法。 KNN KNN演算法（鄰近演算法）的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。歐式距離的計算公式: 假設每個樣本有兩個特徵值，如 A

基於感知機的手寫數字識別java實現

多層感知機的手寫數字識別，迭代10次對訓練集的正確率97 Main函式，在繪製完數字後，要點下確定按鈕再去識別，重繪按鈕自然是再次繪圖訓練自己的網路結構會替換之前訓練的網路結構，沒有寫儲存或者另存新網路模型。結果對訓練集變現很好，對繪圖的識別結果仍不

MNIST資料集實現手寫數字識別（基於tensorflow）

主要應用了下面幾個方法來提高準確率; 使用隨機梯度下降（batch）使用Relu啟用函式去線性化使用正則化避免過擬合使用帶指數衰減的學習率使用滑動平均模型使用交叉熵損失函式來刻畫預測值和真實值之間的差距的損失函式第一步，匯入MNIST資料集 from

Matlab實現手寫數字識別（PCA+KNN）

</pre><pre name="code" class="plain">clear; addpath('../data/'); % images_train = loadMNISTImages('train-images-idx3-ubyte')'

C++從零實現深度神經網路之六——實戰手寫數字識別（sigmoid和tanh）

本文由@星沉閣冰不語出品，轉載請註明作者和出處。之前的五篇部落格講述的內容應該覆蓋瞭如何編寫神經網路的大部分內容，在經過之前的一系列努力之後，終於可以開始實戰了。試試寫出來的神經網路怎麼樣吧。一、資料準

KNN演算法——實現手寫數字識別（Sklearn實現）

KNN專案實戰——手寫數字識別 1、資料集介紹需要識別的數字已經使用圖形處理軟體，處理成具有相同的色彩和大小：寬高是32畫素x32畫素的黑白影象。儘管採用本文格式儲存影象不能有效地利用記憶體空間，但是為了方便理解，我們將圖片轉換為文字格式。數字的文字格式如下：

基於SVM和KNN的手寫數字的識別（分類）——小試牛刀篇

相關推薦