手寫數字識別-SVM方法

阿新 • • 發佈：2019-01-03

1 匯入資料，檢視特徵

from sklearn import svm
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
import pandas as pd

train=pd.read_csv('Digit/train.csv')
test=pd.read_csv('Digit/test.csv')

i=2
img=train.iloc[i,1:].as_matrix()
img=img.reshape(28,28)
plt.imshow( 
img,cmap='gray')
plt.title('digit is :'+str(train.iloc[i,0]))

在這裡插入圖片描述

plt.hist(train.iloc[i,1:])

在這裡插入圖片描述
特徵按灰度表示，範圍在0-255之間

2 劃分特徵和標籤，初步訓練

img=train.iloc[:5000,1:]
label=train.iloc[:5000,0]
train_data,test_data,train_label,test_label=train_test_split(
                            img,label,test_size=0.2,random_state= 
0)

# 訓練
svc=svm.SVC(C=3)
svc.fit(train_data,train_label)
print svc.score(train_data,train_label)
print svc.score(test_data,test_label)

1.0
0.1

準確率相當於隨機猜測，說明SVC預設引數並不適用，需要調參

3 調參

from sklearn.model_selection import GridSearchCV
svc_param={'C':[1,2,3,4,5,6,7,8,9,10], 
              'kernel': 
 ['linear','rbf'],
              'gamma': [0.5, 0.2, 0.1, 0.001, 0.0001]}
def grid(model,data,label,param):
    grid=GridSearchCV(model,param,cv=5,scoring='accuracy')
    grid.fit(data,label)
    return grid.best_params_,grid.best_score_

超級慢，svm特徵較多時會比較慢

best_params,best_score=grid(svc,train_data,train_label,svc_param)
print best_params
print best_score

{'kernel': 'linear', 'C': 1, 'gamma': 0.5}
0.91475

svc=svm.SVC(**best_params)
svc.fit(train_data,train_label)
print svc.score(train_data,train_label)
print svc.score(test_data,test_label)

1.0
0.91

最佳引數在測試集上表現較預設提升明顯，

4 預測並提交

test.info()
pred=svc.predict(test)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28000 entries, 0 to 27999
Columns: 784 entries, pixel0 to pixel783
dtypes: int64(784)
memory usage: 167.5 MB

sub_svc=pd.DataFrame({'ImageId':list(range(1,len(pred)+1)),'Label':pred})
sub_svc.to_csv('sub_svc.csv',header=True,index=False)

在這裡插入圖片描述

5 改進

5.1 增加訓練的樣本數量（開始只fit5000）

number=20000
img=train.iloc[:number,1:]
label=train.iloc[:number,0]
train_data,test_data,train_label,test_label=train_test_split(
                            img,label,test_size=0.2,random_state=0)

svc=svm.SVC(**best_params)
svc.fit(train_data,train_label)
print svc.score(train_data,train_label)
print svc.score(test_data,test_label)

1.0
0.90375

pred2=svc.predict(test)
sub_svc2=pd.DataFrame({'ImageId':list(range(1,len(pred2)+1)),'Label':pred2})
sub_svc2.to_csv('sub_svc2.csv',header=True,index=False)

在這裡插入圖片描述 **
增加訓練樣本數，有微小提升

5.2 特徵縮放

將灰度值0-255 縮放到0-1之間

test=test/255.0
number=5000
img=train.iloc[:number,1:]/255.0
label=train.iloc[:number,0]
train_data,test_data,train_label,test_label=train_test_split(
                            img,label,test_size=0.2,random_state=0)
svc_param={'C':[1,2,3,4,5,6,7,8,9,10], 
              'kernel': ['linear','rbf'],
              'gamma': [0.5, 0.2, 0.01, 0.001, 0.0001]}
def grid2(model,data,label,param):
    grid=GridSearchCV(model,param,cv=2,scoring='accuracy')
    grid.fit(data,label)
    return grid.best_params_,grid.best_score_
best_params,best_score=grid2(svc,train_data,train_label,svc_param)
print best_params
print best_score

{'kernel': 'rbf', 'C': 4, 'gamma': 0.01}
0.94325

svc=svm.SVC(**best_params)
svc.fit(train_data,train_label)
print svc.score(train_data,train_label)
print svc.score(test_data,test_label)

0.99825
0.946

test=pd.read_csv('Digit/test.csv')
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28000 entries, 0 to 27999
Columns: 784 entries, pixel0 to pixel783
dtypes: int64(784)
memory usage: 167.5 MB

test=pd.read_csv('Digit/test.csv')
test=test.iloc[:,:]/255.0
pred3=svc.predict(test)
sub_svc3=pd.DataFrame({'ImageId':list(range(1,len(pred3)+1)),'Label':pred3})
sub_svc3.to_csv('sub_svc3.csv',header=True,index=False)

在這裡插入圖片描述
提升明顯，可見特徵縮放對svm是很重要的

6 總結：

1 svm可以進行數字識別分類，但由於每個畫素作為一個特徵，28*28個特徵比較多，訓練起來變慢，調參更是慢

2 增加訓練樣本數對精度提升有效果，但並不顯著

3 特徵縮放對svm演算法是必要的！縮放後的提升效果明顯，最優超引數發生了變化（沒縮放時，0-255，最好的kernel是linear，縮放後0-1，最好kernel是rbf, 且準確率提升約0.3）*

手寫數字識別-SVM方法

1 匯入資料，檢視特徵 from sklearn import svm from matplotlib import pyplot as plt from sklearn.model_selection import train_test_split import pandas as p

MFC基於對話框手寫數字識別 SVM+MNIST數據集

識別數字做了 XML svm 簡單實用清空朋友 detail data 完整項目下載地址： http://download.csdn.net/detail/hi_dahaihai/9892004 本項目即拿MFC做了一個畫板，畫一個數字後可自行識別數字。此外還有保存

【機器學習 sklearn】手寫數字識別 SVM

執行結果： "D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py (1797L, 64L) [[ 0. 0. 5. ..., 0. 0. 0.]

【機器學習--opencv3.4.1版本基於Hog特徵描述子Svm對經典手寫數字識別】

方向梯度直方圖（Histogram of Oriented Gradient, HOG）特徵是一種在計算機視覺和影象處理中用來進行物體檢測的特徵描述子。HOG特徵通過計算和統計影象區域性區域的梯度方向直方圖來構成特徵。 #include <iostream> #inc

OpenCV機器學習：SVM分類器實現MNIST手寫數字識別

0. 開發環境最近機器學習隨著AI人工智慧的興起越來越火，博主想找一些ML的庫來練手。突然想起之前在看Opencv的doc時發現有ML的component，於是心血來潮就開始寫程式碼試試。話不多說，直接進正題。以下我的開發環境配置： -Windows7

KNN / SVM 手寫數字識別-PCA降維

一.問題分析採用機器學習演算法對usps和mnist兩個資料集完成手寫數字識別任務。1.1.資料集介紹MNIST MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST)。訓練

基於opencv的手寫數字識別（MFC,HOG,SVM）

因為本程式是提取HOG特徵，使用SVM進行分類的，所以大概瞭解下HOG的一些知識，其中我覺得怎麼計算影象HOG特徵的維度會對程式瞭解有幫助關於HOG，我們可以參考： http://gz-ricky.blogbus.com/logs/85326

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

本文轉自：http://blog.csdn.net/net_wolf_007/article/details/51794254 前面兩章對資料進行了簡單的特徵提取及線性迴歸分析。識別率已經達到了85%，完成了數字識別的第一步：資料探測。這一章要做的就各

SVM實現手寫數字識別

SVM簡介知乎上的一個回答我認為是史上最NB最形象的SVM含義解釋，想看介紹戳這裡（裡面的第一個回答），再看看百科就能知道個大概了。開發環境 Windows10 + VS2013 + Qt580 + OpenCV300主要程式碼利用opencv-SVM演

基於opencv3.4和SVM的手寫數字識別

本文將使用opencv3.4和SVM識別手寫數字，開發環境為vs2013和C++。資料集 opencv安裝資料夾的 “samples/data” 下預置了一張手寫數字的圖片，其包含了5000個 0至9 的手寫數字，每個數字

pca+svm手寫數字識別

在上一篇部落格裡講到在matlab中使用libsvm識別手寫數字，識別精度不高，一是svm的引數沒有設定好，二是在提取影象特徵時，直接將影象展開為一行，沒有做任何處理，導致其訓練速度和識別精度都不夠好，本文采用pca演算法提取影象特徵，然後再用svm進行分類。

BP神經網絡（手寫數字識別）

根據公式輸入廣泛不可變理想變化 n) 放大 1實驗環境實驗環境：CPU [email protected]/* */，內存8G，windows10 64位操作系統實現語言：python 實驗數據：Mnist數據集程序使用的數據庫是mni

keras入門實戰：手寫數字識別

如果 turn wid 寬度 initial 作用 err examples 預測近些年由於理論知識的硬件的快速發展，使得深度學習達到了空前的火熱。深度學習已經在很多方面都成功得到了應用，尤其是在圖像識別和分類領域，機器識別圖像的能力甚至超過了人類。本文用深度學習Pyt

【機器學習】手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備樣本數據獲取忽略，實際上就是將32*32的圖片上數字格式化成一個向量，如下：本demo所有樣本數據都是基於這種格式的訓練數據：將圖片數據轉成1*1024的數組，作為一

Tensorflow - Tutorial (7) : 利用 RNN/LSTM 進行手寫數字識別

ddc htm net sets 手寫 n-2 align csdn global 1. 經常使用類 class tf.contrib.rnn.BasicLSTMCell BasicLSTMCell 是最簡單的一個LSTM類。沒有實現clippi

Tensorflow實踐 mnist手寫數字識別

model 損失函數兩層最簡 sin test http gif bat minst數據集　　　　tensorflow的文檔中就自帶了mnist手寫數字識別的例子，是一個很經典也比較簡單

tensorflow 基礎學習五：MNIST手寫數字識別

truncate averages val flow one die correct 表示 data MNIST數據集介紹： from tensorflow.examples.tutorials.mnist import input_data # 載入MNIST數據集，

第二節，TensorFlow 使用前饋神經網絡實現手寫數字識別

com net config return pyplot dataset 運行算法但是一感知器感知器學習筆記：https://blog.csdn.net/liyuanbhu/article/details/51622695 感知器（Percep

第三節，TensorFlow 使用CNN實現手寫數字識別

啟用 out min 灰度 HA 打破 gre 大量 gray 上一節，我們已經講解了使用全連接網絡實現手寫數字識別，其正確率大概能達到98%，著一節我們使用卷積神經網絡來實現手寫數字識別，其準確率可以超過99%，程序主要包括以下幾塊內容 [1]: 導入數據，即測試集和

Caffe的運行mnist手寫數字識別

而不是所在結果 ack cif sting one efi 打開老規矩，首先附上官方教程：http://caffe.berkeleyvision.org/gathered/examples/mnist.html 1、必要軟件　　因為Caffe中使用的是Linux才能

手寫數字識別-SVM方法

1 匯入資料，檢視特徵

2 劃分特徵和標籤，初步訓練

3 調參

4 預測並提交

5 改進

5.1 增加訓練的樣本數量（開始只fit5000）

5.2 特徵縮放

6 總結：

相關推薦