Python sklearn包——mnist資料集下不同分類器的效能實驗

阿新 • • 發佈：2019-01-08

Preface：使用scikit-learn各種分類演算法對資料進行處理。

2.2、Scikit-learn的測試

scikit-learn已經包含在Anaconda中。也可以在官方下載原始碼包進行安裝。本文程式碼裡封裝瞭如下機器學習演算法，我們修改資料載入函式，即可一鍵測試：

classifiers = {'NB':naive_bayes_classifier,
                  'KNN':knn_classifier,
                   'LR':logistic_regression_classifier,
                   'RF':random_forest_classifier,
                   'DT':decision_tree_classifier,
                  'SVM':svm_classifier,
                'SVMCV':svm_cross_validation,
                 'GBDT':gradient_boosting_classifier
    }

train_test.py

#!usr/bin/env python
#-*- coding: utf-8 -*-
 
import sys
import os
import time
from sklearn import metrics
import numpy as np
import cPickle as pickle
 
reload(sys)
sys.setdefaultencoding('utf8')
 
# Multinomial Naive Bayes Classifier
def naive_bayes_classifier(train_x, train_y):
    from sklearn.naive_bayes import MultinomialNB
    model = MultinomialNB(alpha=0.01)
    model.fit(train_x, train_y)
    return model
 
 
# KNN Classifier
def knn_classifier(train_x, train_y):
    from sklearn.neighbors import KNeighborsClassifier
    model = KNeighborsClassifier()
    model.fit(train_x, train_y)
    return model
 
 
# Logistic Regression Classifier
def logistic_regression_classifier(train_x, train_y):
    from sklearn.linear_model import LogisticRegression
    model = LogisticRegression(penalty='l2')
    model.fit(train_x, train_y)
    return model
 
 
# Random Forest Classifier
def random_forest_classifier(train_x, train_y):
    from sklearn.ensemble import RandomForestClassifier
    model = RandomForestClassifier(n_estimators=8)
    model.fit(train_x, train_y)
    return model
 
 
# Decision Tree Classifier
def decision_tree_classifier(train_x, train_y):
    from sklearn import tree
    model = tree.DecisionTreeClassifier()
    model.fit(train_x, train_y)
    return model
 
 
# GBDT(Gradient Boosting Decision Tree) Classifier
def gradient_boosting_classifier(train_x, train_y):
    from sklearn.ensemble import GradientBoostingClassifier
    model = GradientBoostingClassifier(n_estimators=200)
    model.fit(train_x, train_y)
    return model
 
 
# SVM Classifier
def svm_classifier(train_x, train_y):
    from sklearn.svm import SVC
    model = SVC(kernel='rbf', probability=True)
    model.fit(train_x, train_y)
    return model
 
# SVM Classifier using cross validation
def svm_cross_validation(train_x, train_y):
    from sklearn.grid_search import GridSearchCV
    from sklearn.svm import SVC
    model = SVC(kernel='rbf', probability=True)
    param_grid = {'C': [1e-3, 1e-2, 1e-1, 1, 10, 100, 1000], 'gamma': [0.001, 0.0001]}
    grid_search = GridSearchCV(model, param_grid, n_jobs = 1, verbose=1)
    grid_search.fit(train_x, train_y)
    best_parameters = grid_search.best_estimator_.get_params()
    for para, val in best_parameters.items():
        print para, val
    model = SVC(kernel='rbf', C=best_parameters['C'], gamma=best_parameters['gamma'], probability=True)
    model.fit(train_x, train_y)
    return model
 
def read_data(data_file):
    import gzip
    f = gzip.open(data_file, "rb")
    train, val, test = pickle.load(f)
    f.close()
    train_x = train[0]
    train_y = train[1]
    test_x = test[0]
    test_y = test[1]
    return train_x, train_y, test_x, test_y
     
if __name__ == '__main__':
    data_file = "mnist.pkl.gz"
    thresh = 0.5
    model_save_file = None
    model_save = {}
     
    test_classifiers = ['NB', 'KNN', 'LR', 'RF', 'DT', 'SVM', 'GBDT']
    classifiers = {'NB':naive_bayes_classifier,
                  'KNN':knn_classifier,
                   'LR':logistic_regression_classifier,
                   'RF':random_forest_classifier,
                   'DT':decision_tree_classifier,
                  'SVM':svm_classifier,
                'SVMCV':svm_cross_validation,
                 'GBDT':gradient_boosting_classifier
    }
     
    print 'reading training and testing data...'
    train_x, train_y, test_x, test_y = read_data(data_file)
    num_train, num_feat = train_x.shape
    num_test, num_feat = test_x.shape
    is_binary_class = (len(np.unique(train_y)) == 2)
    print '******************** Data Info *********************'
    print '#training data: %d, #testing_data: %d, dimension: %d' % (num_train, num_test, num_feat)
     
    for classifier in test_classifiers:
        print '******************* %s ********************' % classifier
        start_time = time.time()
        model = classifiers[classifier](train_x, train_y)
        print 'training took %fs!' % (time.time() - start_time)
        predict = model.predict(test_x)
        if model_save_file != None:
            model_save[classifier] = model
        if is_binary_class:
            precision = metrics.precision_score(test_y, predict)
            recall = metrics.recall_score(test_y, predict)
            print 'precision: %.2f%%, recall: %.2f%%' % (100 * precision, 100 * recall)
        accuracy = metrics.accuracy_score(test_y, predict)
        print 'accuracy: %.2f%%' % (100 * accuracy)
 
    if model_save_file != None:
        pickle.dump(model_save, open(model_save_file, 'wb'))

mark

Python sklearn包——mnist資料集下不同分類器的效能實驗

Preface：使用scikit-learn各種分類演算法對資料進行處理。 2.2、Scikit-learn的測試 scikit-learn已經包含在Anaconda中。也可以在官方下載原始碼包進行安裝。本文程式碼裡封裝瞭如下機器學習演算法，我們修改資料載入函式，即可

tensorflow 學習專欄（六）：使用卷積神經網路（CNN）在mnist資料集上實現分類

卷積神經網路（Convolutional Neural Network, CNN）是一種前饋神經網路，它的人工神經元可以響應一部分覆蓋範圍內的周圍單元，對於大型影象處理有出色表現。卷積神經網路CNN的結構一般包含這幾個層：輸入層：用於資料的輸入卷積層：使用卷積核進行特徵提取和

單向RNN和雙向RNN在mnist資料集上的分類實驗

RNN用於影象分類思路很奇特，不明覺厲，具體可以參考相關論文，rnn和birnn的實驗： #!/usr/bin/env python # -*- coding: utf-8 -*- # created by fhqplzj on 2017/06/19 下午10:28 fro

ML之分類預測之ElasticNet：利用ElasticNet迴歸對二分類資料集構建二分類器(DIY交叉驗證+分類的兩種度量PK)

ML之分類預測之ElasticNet：利用ElasticNet迴歸對二分類資料集構建二分類器(DIY交叉驗證+分類的兩種度量PK) 輸出結果設計思路核心程式碼 #(4)交叉驗證 for ixval in range(

機器學習教程之引數搜尋：GridSearchCV 與 RandomizedSearchCV || 以阿里IJCAI廣告推薦資料集與XGBoostClassifier分類器為例

在使用一些比較基礎的分類器時，需要人為調整的引數是比較少的，比如說K-Neighbor的K和SVM的C，通常而言直接使用sklearn裡的預設值就能取得比較好的效果了。但是，當使用一些大規模整合的演算法時，引數的問題就出來了，比如說 XGBoost的引數大概

資料不平衡時分類器效能評價（ROC曲線）

大家在將統計學習方法用於實際應用時，不免會遇到各類間資料不太平衡的情況。比如垃圾郵件的識別、稀有病情的診斷、詐騙電話識別、情感分析等等情況。導致資料不平衡的原因有很多，有可能是因為不恰當的取樣方法，也可能真實的資料分佈就是如此；然而真實的資料分佈在大多數情況下我們是無從得知

Python實現支援向量機(SVM) MNIST資料集

Python實現支援向量機(SVM) MNIST資料集 SVM的原理這裡不講，大家自己可以查閱相關資料。下面是利用sklearn庫進行svm訓練MNIST資料集，準確率可以達到90%以上。 from sklearn import svm import numpy as np

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

【caffe學習筆記之7】caffe-matlab/python訓練LeNet模型並應用於mnist資料集（2）

【案例介紹】 LeNet網路模型是一個用來識別手寫數字的最經典的卷積神經網路，是Yann LeCun在1998年設計並提出的，是早期卷積神經網路中最有代表性的實驗系統之一，其論文是CNN領域第一篇經典之作。本篇部落格詳細介紹基於Matlab、Python訓練lenet手

識別MNIST資料集之（二）：用Python實現神經網路

在這篇文章當中，我們將會用根據MNIST的資料集，跟大家介紹神經網路進行分類的基本原理和方法。 1.神經網路的正向計算如果我們把神經網路當作一個黑盒來看，它的結構大概是這樣的：輸入（層）：一張圖片計算過程：神經網路輸出（層）：這張圖

python,tensorflow,CNN實現mnist資料集的訓練與驗證正確率

1.工程目錄 2.匯入data和input_data.py 連結：https://pan.baidu.com/s/1EBNyNurBXWeJVyhNeVnmnA 提取碼：4nnl 3.CNN.py import tensorflow as tf import matpl

使用Python將MNIST資料集轉化為圖片

1，對於訓練集資料： import numpy as np import struct from PIL import Image import os data_file = 'somePath

Windows下mnist資料集caffemodel分類模型訓練及測試

1. MNIST資料集介紹 MNIST是一個手寫數字資料庫，樣本收集的是美國中學生手寫樣本，比較符合實際情況，大體上樣本是這樣的： MNIST資料庫有以下特性：包含了60000個訓練樣本集和

ubuntu下caffe實戰---mnist資料集測試

測試用到手寫體識別模型LeNet，mnist資料集其中LeNet是一種CNN模型，由一個卷積層、後面跟一個下采樣層、再跟另外一個卷積層和另一個下采樣層，再之後是兩個全連線層組成。 mnist資料集：包括60000個訓練集和10000個驗證集訓練過程： 1.下載mni

python指令碼——將同一個資料夾下的相同檔名的不同檔案分開

需求：一個資料夾下有相同檔名的兩種格式的檔案，且數量相等，我的兩種檔案格式是：jpg和tif.rbox.txt，想要把這兩種檔案分別放到兩個資料夾裡面例如：將789資料夾下的兩種檔案分別放到456資料夾和000資料夾下（原來的456資料夾和000資料夾是空的）程式

孿生網路入門（下） Siamese Net分類服裝MNIST資料集(pytorch)

--- # 主題列表：juejin, github, smartblue, cyanosis, channing-cyan, fancy, hydrogen, condensed-night-purple, greenwillow, v-green, vue-pro, healer-readable # 貢獻

python rtree包查找三維空間下的最近設備

prop 2個 inter 必須字符創建 attr 情況下 mage rtree模塊有2個常用的類：rtree.index.Index和rtree.index.Property。其中rtree.index.Index用於進行數據操作，rtree.index.Proper

MNIST資料集手寫體識別(MLP實現)

github部落格傳送門 csdn部落格傳送門本章所需知識: 沒有基礎的請觀看深度學習系列視訊 tensorflow Python基礎資料下載連結: 深度學習基礎網路模型(mnist手寫體識別資料集) MNIST資料集手寫體識別(MLP實現) import tensorflow

MNIST資料集手寫體識別(CNN實現)

github部落格傳送門 csdn部落格傳送門本章所需知識: 沒有基礎的請觀看深度學習系列視訊 tensorflow Python基礎資料下載連結: 深度學習基礎網路模型(mnist手寫體識別資料集) MNIST資料集手寫體識別(CNN實現) import tensorflow

Python sklearn包——mnist資料集下不同分類器的效能實驗

相關推薦