1. 程式人生 > 程式設計 >使用NumPy讀取MNIST資料的實現程式碼示例

使用NumPy讀取MNIST資料的實現程式碼示例

NumPy

什麼是NumPy

NumPy是 Python 語言的一個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。主頁為https://numpy.org/。

安裝NumPy

使用pip工具來安裝。

python -m pip install numpy

使用NumPy讀取mnist資料

如果直接從網路上讀取mnist資料,恭喜你,目前國內基本需要一個小時以上。所以建議預先下載mnist資料包。

工作環境

當前我的工作環境如下:Win10 + Anaconda。使用Spyder4做為IDE。Anaconda的安裝可以參考我的blog。

將資料放置到指定目錄

下圖是我當前的工作目錄環境,因此在C:\Users\sus20\.spyder-py3-dev目錄下,建立子目錄minist。如下圖所示:

將下載好的四個gz檔案拷貝到這個目錄下,並將這四個gz檔案解壓。如下圖所示:

使用NumPy讀取MNIST

load_mnist 函式返回兩個陣列,第一個是一個 n * m 維的 NumPy array(images),這裡的 n 是樣本行數,m 是特徵列數。訓練資料集包含 60,000 個樣本,測試資料集包含 10,000 樣本。

在 MNIST 資料集中的每張圖片由 28 * 28 個畫素點構成,每個畫素點用一個灰度值表示。在這裡,我們將 28 * 28 的畫素展開為一個一維的行向量,這些行向量就是圖片數組裡的行(每行 784 個值,或者說每行就是代表了一張圖片)。

load_mnist 函式返回的第二個陣列(labels) 包含了相應的目標變數,也就是手寫數字的類標籤(整數 0-9)。

import os
import struct
import numpy as np
 
def load_mnist(path,kind='train'):
  """Load MNIST data from `path`"""
  labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
  
  images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
  
  with open(labels_path,'rb') as lbpath:
    magic,n = struct.unpack('>II',lbpath.read(8))
    labels = np.fromfile(lbpath,dtype=np.uint8)
  #讀入magic是一個檔案協議的描述,也是呼叫fromfile 方法將位元組讀入NumPy的array之前在檔案緩衝中的item數(n). 
 
  with open(images_path,'rb') as imgpath:
    magic,num,rows,cols = struct.unpack('>IIII',imgpath.read(16))
    images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels),784)
  return images,labels
 
print(load_mnist("minst_data"))

執行程式碼,將得到如下圖結果,說明我們已經正確的從本地讀取MNIST資料集。

下一步,我們要開始使用TensorFlow讀取MNIST資料集。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。