使用NumPy讀取MNIST資料的實現程式碼示例
NumPy
什麼是NumPy
NumPy是 Python 語言的一個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。主頁為https://numpy.org/。
安裝NumPy
使用pip工具來安裝。
python -m pip install numpy
使用NumPy讀取mnist資料
如果直接從網路上讀取mnist資料,恭喜你,目前國內基本需要一個小時以上。所以建議預先下載mnist資料包。
工作環境
當前我的工作環境如下:Win10 + Anaconda。使用Spyder4做為IDE。Anaconda的安裝可以參考我的blog。
將資料放置到指定目錄
下圖是我當前的工作目錄環境,因此在C:\Users\sus20\.spyder-py3-dev目錄下,建立子目錄minist。如下圖所示:
將下載好的四個gz檔案拷貝到這個目錄下,並將這四個gz檔案解壓。如下圖所示:
使用NumPy讀取MNIST
load_mnist 函式返回兩個陣列,第一個是一個 n * m 維的 NumPy array(images),這裡的 n 是樣本行數,m 是特徵列數。訓練資料集包含 60,000 個樣本,測試資料集包含 10,000 樣本。
在 MNIST 資料集中的每張圖片由 28 * 28 個畫素點構成,每個畫素點用一個灰度值表示。在這裡,我們將 28 * 28 的畫素展開為一個一維的行向量,這些行向量就是圖片數組裡的行(每行 784 個值,或者說每行就是代表了一張圖片)。
load_mnist 函式返回的第二個陣列(labels) 包含了相應的目標變數,也就是手寫數字的類標籤(整數 0-9)。
import os import struct import numpy as np def load_mnist(path,kind='train'): """Load MNIST data from `path`""" labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind) images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind) with open(labels_path,'rb') as lbpath: magic,n = struct.unpack('>II',lbpath.read(8)) labels = np.fromfile(lbpath,dtype=np.uint8) #讀入magic是一個檔案協議的描述,也是呼叫fromfile 方法將位元組讀入NumPy的array之前在檔案緩衝中的item數(n). with open(images_path,'rb') as imgpath: magic,num,rows,cols = struct.unpack('>IIII',imgpath.read(16)) images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels),784) return images,labels print(load_mnist("minst_data"))
執行程式碼,將得到如下圖結果,說明我們已經正確的從本地讀取MNIST資料集。
下一步,我們要開始使用TensorFlow讀取MNIST資料集。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。