kaggle練手題目Digit Recognizer

阿新 • • 發佈：2018-12-15

安裝kaggle工具獲取資料來源(linux 環境)
採用sklearn的KNeighborsClassifier訓練資料
通過K折交叉驗證來選取K值是正確率更高

1.安裝kaggle,獲取資料來源

pip install kaggle

將資料下載到目錄/data/data-test/digit_recognize/下

cd /data/data-test/digit_recognize/
kaggle competitions download -c digit-recognizer

2.安裝anaconda3作為python3環境，自帶sklearn,pandas,numpy等常用工具包

3.程式碼實現

import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
import pickle


# 檔案路徑
project_path = '/data/data-test/digit_recognize/'
clf_file = project_path + 'knn.pickle'


def get_data_chunk(file_name):
    # 檔案太大分塊讀取檔案 9000萬條
    reader = pd.read_csv(file_name, iterator=True)
    loop = True
    chunk_size = 100000
    chunks = []
    while loop:
        try:
            chunk = reader.get_chunk(chunk_size)
            chunks.append(chunk)
            print(len(chunks))
        except StopIteration:
            loop = False
            print("Iteration is stopped.")
    res = pd.concat(chunks, ignore_index=True)
    return res


def save_clf(clf_s):
    clf_f = open(clf_file, 'wb')
    pickle.dump(clf_s, clf_f)
    clf_f.close()


def get_clf():
    clf_f = open(clf_file, 'rb')
    res = pickle.load(clf_f)
    return res

# 對測試資料集預測結果
def predict():
    knn_clf = get_clf()
    test_data = get_data_chunk(project_path + "test.csv")
    res_data = knn_clf.predict(test_data)
    df = pd.DataFrame()
    df["imageId"] = test_data["imageId"]
    df["Label"] = res_data
    df.to_csv(project_path + 'res.csv', index=False)


def train():
    train_data = get_data_chunk(project_path + "train.csv")
    print(train_data.info())
    print(train_data)
    train_lable = train_data['label']
    x = train_data.drop(columns=['label'])

    max = 0
    max_k = 5

    # k取值從5，15用K折交叉驗證算出正確率分數
    for k in range(5, 15):
        clf = KNeighborsClassifier(n_neighbors=k)
        # cv為2折
        scores = cross_val_score(clf, x, train_lable, cv=2, scoring='accuracy')
        mean = scores.mean()
        print(k, mean)
        if mean > max:
            max_k = k
    print("maxK=", max_k)
    # 用max_k作為knn引數訓練模型
    clf = KNeighborsClassifier(n_neighbors=max_k)
    clf.fit(x, train_lable)
    # 儲存模型到pickle檔案
    save_clf(clf)
    
if __name__ == '__main__':
    train()
    predict()

kaggle練手題目Digit Recognizer

安裝kaggle工具獲取資料來源(linux 環境) 採用sklearn的KNeighborsClassifier訓練資料通過K折交叉驗證來選取K值是正確率更高 1.安裝kaggle,獲取資料來源 pip install kaggle 將資料下載到目錄/data/data-test/

Kaggle Digit Recognizer識別手寫數字入門賽基於tensorflow-GPU(TOP 15%)

本人原創，開源出來希望與大家互相學習。 ps:目前這個比賽前二三十名測試集的正確率為1，我覺得其中一個方法可能是將所有的樣本（從官網下載train set和 test set及其他們的標籤）喂入CNN學習，將訓練集正確率訓練到1.0就可以了，這樣用測試集測出來的結果就可以1.0了，但

DeepLearning to digit recognizer in kaggle

flags 權重數據位更新 multiple 就會 oss you 給定 DeepLearning to digit recongnizer in kaggle 近期在看deeplearning，於是就找了kaggle上字符識別進行練習。這裏我

Kaggle KNN實現Digit Recognizer

本文參考了https://blog.csdn.net/u012162613/article/details/41929171，然後總結一下自己的理解。主要從資料準備、資料分析、核心演算法三個方面介紹。資料準備 Kaggle官網中搜索Digit Recognizer，從‘Data’中下載cs

kaggle——Digit Recognizer

在kaggle上做的第一個專案，作為資料分析的初學者，學習到了很多東西專案說明在本次比賽中，您的目標是正確識別來自數萬個手寫影象資料集的數字。我們策劃了一套教程式的核心，涵蓋從迴歸到神經

Kaggle學習之路(二) —— Digit Recognizer之問題分析

Digit Recognizer是數字手寫體識別。 Kirill Kliavin基於TensorFlow 框架與深度學習演算法，給出了準確率高達0.99的解決方法，值得我們學習。閱讀本篇的先決條件：需要有一定python基礎，一些線性代數的理論基礎，

kaggle 入門 digit recognizer Python xgboost

# coding:utf-8 import numpy __author__ = 'WHP' __mtime__ = '2016/5/12' __name__ = '' import xgboost import pandas import time now = ti

Kaggle digit-recognizer PCA+SVM

什麼是PCA 主分析方法（PCA），是運用線性代數的知識，找到一個k維空間(k小於n, n為原來樣本的維度)讓原來的樣本投影到該空間後能保留最大的差異程度，具體表現為方差。舉個一個簡單的例子就是，全班同學的成績語文相差很大，從50到9

kaggle--Digit Recognizer（python實現）

使用xgboost並對其進行簡單的調參，準確率可達到97% 排名較低，就不要在意這些細節啦，小白一枚，新手上路。 1、安裝環境這裡使用anaconda(python 3.6)版本。首先從https://www.lfd.uci.edu/~goh

Kaggle比賽——Digit Recognizer——Part 1（Pytorch 資料集的建立）

首先從Kaggle官網下載資料集https://www.kaggle.com/c/digit-recognizer/data裡面包含三個CSV文件。train.csv是帶標籤的資料，用於訓練和調參，test.csv是無標籤的資料，在提交測試文件的時候才需要用到。

Java制作最難練手速遊戲，Faker都堅持不了一分鐘

圖形圖像 java 想練手速，來啊，互相傷害啊Java制作最難練手速遊戲，目測Faker也堅持不了一分鐘制作思路：只靠Java實現。Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、Java、

練手小項目（2）-生活小助手--星座運勢查詢

avi 聚合數據當前 value book tell 身邊 req pin 上一篇內容練手小項目（2）-生活小助手今天星期一。趁著中午的歇息時間把第二個寫出來星座運勢，近期看看極客學院用聚合數據做了天氣預報的視頻教程，不好評價他。看他在後面的代碼變更那

java練手

javapublic class jichu{ public static void main(String[] args){ // 輸出控制臺 System.out.print("hello world");

day-1.python初學者練手題

tom rep 初學 grid repeat 只需要 () padding -1 1.編寫一個名為right_justify的函數，函數接受一個名為``s``的字符串作為形參，並在打印足夠多的前導空格（leading space）之後打印這個字符串，使得字符串的最後一個字

Kiggle:Digit Recognizer

矩陣 mage get 特征 pixel 步驟 kaggle 題目 a算法題目鏈接：Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total

面試練手題集（網站推薦）

htm 公司書籍 art 算法面試 item 程序員 detail tco 1)leetcode:一般筆試題會從leetcode找 2)橫空出世，席卷互聯網--評微軟等公司數據結構+算法面試100題對應已出版書籍《編程之法：面試和算法心得》購買鏈接：http://

socket遠程控制（練手）___源碼

socket 基於遠程控制服務器端： #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2017/8/22 16:14 # @Author : Mr_zhang # @Site : # @File : serv

練手nginx反向代理apache實戰

pst virtual stream ror roo cnblogs 什麽 sta war 先說下原理性的什麽是反向代理用戶訪問域名域名的指向到nginx nginx把請求轉發到apache apache處理後返回給用戶整套的邏輯對於用戶來說就是

簡單的工資管理系統小程序，只是練手

工資 swa 修改 lar 存在 inf 查詢 strip() 練手需求如下：工資管理系統aaa 100000bbb 80000ccc 50000ddd 30000-----以上是info.txt文件-----實現效果：從info.txt文件中讀取員工及其工資信息，最後

vue練手小項目--眼鏡在線試戴

keywords div 地址 == pro 另一個包括 .sh nbsp 最近看到了一個眼鏡在線試戴小項目使用純js手寫的，本人剛學習vue.js沒多久，便試試用vue做做看了，還沒完善。其中包括初始圖片加載，使用keywords查找，父子組件之間傳遞信息，子組件之間

kaggle練手題目Digit Recognizer

相關推薦