Kaggle digit-recognizer PCA+SVM

阿新 • • 發佈：2019-01-31

什麼是PCA

主分析方法（PCA），是運用線性代數的知識，找到一個k維空間(k小於n, n為原來樣本的維度)讓原來的樣本投影到該空間後能保留最大的差異程度，具體表現為方差。
舉個一個簡單的例子就是，全班同學的成績語文相差很大，從50到90分佈，但是英語成績大家都考到90多分，如果兩個成績都用同樣的比重區分排名，那麼英語的作用就不這麼明顯，而且需要考慮兩科成績。
這時如果我新建一個新變數，對兩科取不同權重，這樣計算出來的新維度即能保留原來的特徵，又能達到降維的效果。
這只是幫助理解，具體實現應該有出入。
具體是先把樣本寫成矩陣形式，求出協方差矩陣（自己跟自己的轉置相乘再除於樣本數）。協方差有個特殊的性質就是，對角線上的元素代表元素的方差，其他位置的元素代表協方差，就是不同元素的相關程度。
這時我們需要構造一個向量，令到協方差矩陣只留下對角線上的元素，其他位置的為0，其物理含義就是使原本元素投影到新空間後，每個維度之間的相關最小，而差異最大。這時再對對角線上的元素排序，選出最大的方差就達到降維的效果。至於怎麼實現矩陣對角化，就是數學的知識了。

什麼是SVM

支援向量機器（SVM），就是找到一個最佳超平面，把各類樣本分開，具體數學思想目前沒搞懂。只知道個大概或者說只能理解而二維的情況，汗。

我們來做題吧

手寫數字識別引用的是MNIST的樣本庫，train.csv是一個42000*785的資料集，有42000個樣本，第一列是label，後面784是灰度值。 train.csv是測試集，28000個樣本。
第一次參考別人的隨機樹演算法，採取n=200的引數，獲得了0.9668的效果。
想想可以用PCA先降維，那麼問題來了，降到多少維了？一般是（留下的方差總和） / （總方差和） = 85% 到 95%的區間，不說了，直接上測試程式碼。PCA函式內的n_components當填小數時是留下方差的百分比，不填就是全部保留，mle是自動。

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import pandas as pd

pca = PCA(whiten=True)
digit = pd.read_csv('train.csv' 
)
train = digit.values[1:, :].astype(int)
pca.fit(train)
exr = pca.explained_variance_ratio_

x = []
y = []
line85 = []
line98 = []
for i in range(len(exr)) :
    x.append(i)
    line85.append(0.85)
    line98.append(0.98)
    if i == 0: 
        y.append(exr[0])
    else:
        y.append(exr[i]+y[i-1])

plt.plot(x, y)
plt.plot(x, line85)
plt.plot(x, line98)
plt.show()

實驗圖片,通過pca降維器的屬性可以檢視留下幾個維度，具體用法百度吧。可見98%大概是154個左右。

方差累計貢獻

然後後面是實驗程式碼

# -*- coding: utf-8 -*-
from sklearn.decomposition import PCA
from sklearn.svm import SVC
import pandas as pd
import numpy as np

pca = PCA(n_components=0.95, whiten=True)
digit = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
label = digit.values[:, 0].astype(int)
train = digit.values[:, 1:].astype(int)
test_data = test.values[:, :].astype(int)

pca.fit(train)
train_data = pca.transform(train)

svc = SVC()
svc.fit(train_data, label)

test_data = pca.transform(test_data)
ans = svc.predict(test_data)

a = []
for i in range(len(ans)):
    a.append(i+1)

np.savetxt('PCA_0.95_SVC.csv', np.c_[a, ans], 
    delimiter=',', header='ImageId,Label', comments='', fmt='%d')

調引數總共調了三次：
1. 第一次用0.95，結果是0.9737。
2. 第二次用0.85，結果是0.9815。
3. 第三次直接試保留10個維度，結果是0.9341，比之前低了許多。

Summary

保留主要的特徵維度，能提高分類器的魯棒性，但是選取維度過少，會丟失了一些特徵資訊。參考別人的用了35的維度，取得的效果會好一點點。但是過度調引數感覺沒什麼意思。懂個大概思路就好，這次實驗自己看了sklearn參考文件的PCA內容，雖然有些看不懂，但是也是一種鍛鍊吧。

Keep Fighting！

Kaggle digit-recognizer PCA+SVM

什麼是PCA 主分析方法（PCA），是運用線性代數的知識，找到一個k維空間(k小於n, n為原來樣本的維度)讓原來的樣本投影到該空間後能保留最大的差異程度，具體表現為方差。舉個一個簡單的例子就是，全班同學的成績語文相差很大，從50到9

Kaggle Digit Recognizer識別手寫數字入門賽基於tensorflow-GPU(TOP 15%)

本人原創，開源出來希望與大家互相學習。 ps:目前這個比賽前二三十名測試集的正確率為1，我覺得其中一個方法可能是將所有的樣本（從官網下載train set和 test set及其他們的標籤）喂入CNN學習，將訓練集正確率訓練到1.0就可以了，這樣用測試集測出來的結果就可以1.0了，但

kaggle——Digit Recognizer

在kaggle上做的第一個專案，作為資料分析的初學者，學習到了很多東西專案說明在本次比賽中，您的目標是正確識別來自數萬個手寫影象資料集的數字。我們策劃了一套教程式的核心，涵蓋從迴歸到神經

kaggle--Digit Recognizer（python實現）

使用xgboost並對其進行簡單的調參，準確率可達到97% 排名較低，就不要在意這些細節啦，小白一枚，新手上路。 1、安裝環境這裡使用anaconda(python 3.6)版本。首先從https://www.lfd.uci.edu/~goh

DeepLearning to digit recognizer in kaggle

flags 權重數據位更新 multiple 就會 oss you 給定 DeepLearning to digit recongnizer in kaggle 近期在看deeplearning，於是就找了kaggle上字符識別進行練習。這裏我

kaggle練手題目Digit Recognizer

安裝kaggle工具獲取資料來源(linux 環境) 採用sklearn的KNeighborsClassifier訓練資料通過K折交叉驗證來選取K值是正確率更高 1.安裝kaggle,獲取資料來源 pip install kaggle 將資料下載到目錄/data/data-test/

Kaggle KNN實現Digit Recognizer

本文參考了https://blog.csdn.net/u012162613/article/details/41929171，然後總結一下自己的理解。主要從資料準備、資料分析、核心演算法三個方面介紹。資料準備 Kaggle官網中搜索Digit Recognizer，從‘Data’中下載cs

Kaggle學習之路(二) —— Digit Recognizer之問題分析

Digit Recognizer是數字手寫體識別。 Kirill Kliavin基於TensorFlow 框架與深度學習演算法，給出了準確率高達0.99的解決方法，值得我們學習。閱讀本篇的先決條件：需要有一定python基礎，一些線性代數的理論基礎，

kaggle 入門 digit recognizer Python xgboost

# coding:utf-8 import numpy __author__ = 'WHP' __mtime__ = '2016/5/12' __name__ = '' import xgboost import pandas import time now = ti

Kaggle比賽——Digit Recognizer——Part 1（Pytorch 資料集的建立）

首先從Kaggle官網下載資料集https://www.kaggle.com/c/digit-recognizer/data裡面包含三個CSV文件。train.csv是帶標籤的資料，用於訓練和調參，test.csv是無標籤的資料，在提交測試文件的時候才需要用到。

Kiggle:Digit Recognizer

矩陣 mage get 特征 pixel 步驟 kaggle 題目 a算法題目鏈接：Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total

第10章 Principal Component Analysis 人臉識別（PCA+SVM）

sklearn.decomposition.PCA Linear dimensionality reduction using Singular Value Decomposition of the data to project it to a lower dimensional sp

KNN演算法Hadoop實現及kaggle digit recognition資料測試

軟體版本：Hadoop2.6,MyEclipse10.0 , Maven 3.3.2原始碼下載地址：https://github.com/fansy1990/knn 。1. KNN演算法思路如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類

Scikit-learn例項之Pca+Svm人臉識別(AT&T資料集)

from __future__ import print_function from time import time import logging import matplotlib.pyplot as plt import cv2 from numpy import * from sklearn.mo

【Kaggel】Digit Recognizer——使用caffe model

一、Kaggel簡介 Kaggel是一個主要為開發商和資料科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享程式碼的平臺。Digit Recognizer是平臺上的一個簡單的練習專案。二、Dig

整理digit-recognizer幾種解決方案

先放上理想曲線：幾種方法程式碼： #!usr/bin/python #codeing: utf-8 ''' Create on 2018-08-09 Author: Gunther17 Ctrl + 1: 註釋/反註釋　　Ctrl + 4

pca+svm手寫數字識別

在上一篇部落格裡講到在matlab中使用libsvm識別手寫數字，識別精度不高，一是svm的引數沒有設定好，二是在提取影象特徵時，直接將影象展開為一行，沒有做任何處理，導致其訓練速度和識別精度都不夠好，本文采用pca演算法提取影象特徵，然後再用svm進行分類。

基於MATLAB，運用PCA+SVM的特徵臉方法人臉識別

%% %主程式，程式從此開始 clc,clear npersons=40;%選取40個人的臉 global imgrow; global imgcol; imgrow=112; imgcol=92; %% %讀取訓練資料 disp('讀取訓練資料...') [f_matrix,t

基於PCA+SVM的MINIST資料集分類

1. MINIST資料集下載地址：http://yann.lecun.com/exdb/mnist/.2. MINIST資料影象讀取MATLAB程式碼(參考斯坦福大學Andrew Ng教授的課件):function images = loadMNISTImages(filen

手把手教你在kaggle degit recognizer比賽用caffe達到準確率99.1%

最近實驗室師兄佈置了參加kaggle上的digit recognizer訓練比賽，識別手寫資料。在經過兩週的探索之後，發現了一個非常surprising的結論，就是使用mnist的lenet中的lenet_train.sh加default setting，並且不劃分vali

Kaggle digit-recognizer PCA+SVM

什麼是PCA

什麼是SVM

我們來做題吧

Summary

相關推薦