kaggle 入門 digit recognizer Python xgboost

阿新 • • 發佈：2019-01-29

# coding:utf-8
import numpy

__author__ = 'WHP'
__mtime__ = '2016/5/12'
__name__ = ''

import xgboost
import pandas
import time

now = time.time()

dataset = pandas.read_csv("...input\\train.csv")
trainData = dataset.iloc[:, 1:].values
labelData = dataset.iloc[:, :1].values
testData = pandas.read_csv("...input\\test.csv")
test = testData.iloc[:, :].values
#引數列表 http://xgboost.readthedocs.io/en/latest/parameter.html
param = {"booster": "gbtree", "max_depth": 12, "eta": 0.03, "seed": 710, "objective": "multi:softmax", "num_class": 10,
         "gamma": 0.03}

offset = 35000   <span style="font-size: 13.3333339691162px; font-family: Arial, Helvetica, sans-serif;">#分割點 將原資料一部分作為訓練集 一部分作為驗證集</span>
num_rounds = 500 #最大迭代次數
#資料轉換為DMatrix矩陣 此格式為xgboost接受格式
xgtest = xgboost.DMatrix(test)
xgtrain = xgboost.DMatrix(trainData[:offset, :], label=labelData[:offset])
xgeval = xgboost.DMatrix(trainData[offset:, :], label=labelData[offset:])

watchlist = [(xgtrain, 'train'), (xgeval, 'val')]
#進行模型擬合  官方函式列表 http://xgboost.readthedocs.io/en/latest/python/python_api.html
model = xgboost.train(list(param.items()), xgtrain, num_rounds, watchlist, early_stopping_rounds=100)
#根據模型 進行預測
preds = model.predict(xgtest, ntree_limit=model.best_iteration)

numpy.savetxt('submission_xgb_MultiSoftmax.csv', numpy.c_[range(1, len(testData) + 1), preds], delimiter=',',
              header='ImageId,Label', comments='', fmt='%d')

print("cost time:", time.time() - now)

結果一開始用的不是multi:softmax(分類器) 而是預設的線性迴歸結果很不好 0.5左右

將資料預處理，大於1的賦為1，得到0.97的結果

參考文件：

kaggle 入門 digit recognizer Python xgboost

# coding:utf-8 import numpy __author__ = 'WHP' __mtime__ = '2016/5/12' __name__ = '' import xgboost import pandas import time now = ti

Kaggle比賽——Digit Recognizer——Part 1（Pytorch 資料集的建立）

首先從Kaggle官網下載資料集https://www.kaggle.com/c/digit-recognizer/data裡面包含三個CSV文件。train.csv是帶標籤的資料，用於訓練和調參，test.csv是無標籤的資料，在提交測試文件的時候才需要用到。

Kaggle Digit Recognizer識別手寫數字入門賽基於tensorflow-GPU(TOP 15%)

本人原創，開源出來希望與大家互相學習。 ps:目前這個比賽前二三十名測試集的正確率為1，我覺得其中一個方法可能是將所有的樣本（從官網下載train set和 test set及其他們的標籤）喂入CNN學習，將訓練集正確率訓練到1.0就可以了，這樣用測試集測出來的結果就可以1.0了，但

kaggle--Digit Recognizer（python實現）

使用xgboost並對其進行簡單的調參，準確率可達到97% 排名較低，就不要在意這些細節啦，小白一枚，新手上路。 1、安裝環境這裡使用anaconda(python 3.6)版本。首先從https://www.lfd.uci.edu/~goh

DeepLearning to digit recognizer in kaggle

flags 權重數據位更新 multiple 就會 oss you 給定 DeepLearning to digit recongnizer in kaggle 近期在看deeplearning，於是就找了kaggle上字符識別進行練習。這裏我

kaggle練手題目Digit Recognizer

安裝kaggle工具獲取資料來源(linux 環境) 採用sklearn的KNeighborsClassifier訓練資料通過K折交叉驗證來選取K值是正確率更高 1.安裝kaggle,獲取資料來源 pip install kaggle 將資料下載到目錄/data/data-test/

Kaggle KNN實現Digit Recognizer

本文參考了https://blog.csdn.net/u012162613/article/details/41929171，然後總結一下自己的理解。主要從資料準備、資料分析、核心演算法三個方面介紹。資料準備 Kaggle官網中搜索Digit Recognizer，從‘Data’中下載cs

kaggle——Digit Recognizer

在kaggle上做的第一個專案，作為資料分析的初學者，學習到了很多東西專案說明在本次比賽中，您的目標是正確識別來自數萬個手寫影象資料集的數字。我們策劃了一套教程式的核心，涵蓋從迴歸到神經

Kaggle學習之路(二) —— Digit Recognizer之問題分析

Digit Recognizer是數字手寫體識別。 Kirill Kliavin基於TensorFlow 框架與深度學習演算法，給出了準確率高達0.99的解決方法，值得我們學習。閱讀本篇的先決條件：需要有一定python基礎，一些線性代數的理論基礎，

Kaggle digit-recognizer PCA+SVM

什麼是PCA 主分析方法（PCA），是運用線性代數的知識，找到一個k維空間(k小於n, n為原來樣本的維度)讓原來的樣本投影到該空間後能保留最大的差異程度，具體表現為方差。舉個一個簡單的例子就是，全班同學的成績語文相差很大，從50到9

Python基礎入門教程，Python學習路線圖

第一天字符語法知識國內排序 inux 跟著最好的給大家整理的這套python學習路線圖，按照此教程一步步的學習來，肯定會對python有更深刻的認識。或許可以喜歡上python這個易學，精簡，開源的語言。此套教程，不但有視頻教程，還有源碼分享，讓大家能真正

Kiggle:Digit Recognizer

矩陣 mage get 特征 pixel 步驟 kaggle 題目 a算法題目鏈接：Kiggle:Digit Recognizer Each image is 28 pixels in height and 28 pixels in width, for a total

Kaggle入門之泰塔尼克之災

pan param standards str clas 分割線 taf num .sh 數據的探索和可視化 ====》基礎模型的構建 ====》優化和調整 1、數據的探索和可視化　(1)包的導入　 #導入包 #Pandas impo

kaggle入門項目：Titanic存亡預測（二）數據處理

理解 ima 簡單標識符數據處理 let ger 好的元素原kaggle比賽地址：https://www.kaggle.com/c/titanic 原kernel地址：A Data Science Framework: To Achieve 99% Accuracy

kaggle入門項目：Titanic存亡預測（五）驗證與實現

tps 多參數 name 出了運算處理 defaults purpose sof 原kaggle比賽地址：https://www.kaggle.com/c/titanic 原kernel地址：A Data Science Framework: To Achieve 99

Kaggle 入門之數字識別

ref .com scott ebo digi note public 中文版知識接著玩Kaggle，大概花了一下午看了這個入門競賽的一篇論壇中比較熱門的Kernel，結合了在CS231n及NG的DL課程知識寫了一個中文版的入門Kernel，大概PublicLB能到8%

《深度學習入門：基於Python的理論與實現》高清中文版PDF+源代碼

mark 原理 col 外部 tps follow src term RoCE 下載：https://pan.baidu.com/s/1nk1IHMUYbcuk1_8tj6ymog 《深度學習入門：基於Python的理論與實現》高清中文版PDF+源代碼高清中文版PDF，3

十五分鐘快速入門系列：Python基礎

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【邢不行|量化小講堂系列34-python量化入門】萬能Python | 交易策略買點、賣點視覺化

引言: 邢不行的系列帖子“量化小講堂”，通過實際案例教初學者使用python進行量化投資，瞭解行業研究方向，希望能對大家有幫助。【歷史文章彙總】請點選此處【必讀文章】EOS期現套利，一週時間，15%無風險收益

分享《深度學習入門：基於Python的理論與實現》中文版PDF和原始碼

下載：（https://pan.baidu.com/s/1agBctMG7HF45VwhYpQHDSQ) 《深度學習入門：基於Python的理論與實現》高清中文版PDF+原始碼高清中文版PDF，314頁，帶目錄標籤，可複製貼上，高清晰。配套原始碼。深度學習真正意義上的入門書，深入淺出地剖析了深度學習

kaggle 入門 digit recognizer Python xgboost

相關推薦