pytorch載入自己的影象資料集例項

阿新 • • 發佈：2020-07-08

之前學習深度學習演算法，都是使用網上現成的資料集，而且都有相應的程式碼。到了自己開始寫論文做實驗，用到自己的影象資料集的時候，才發現無從下手，相信很多新手都會遇到這樣的問題。

參考文章https://www.jb51.net/article/177613.htm

下面程式碼實現了從資料夾內讀取所有圖片，進行歸一化和標準化操作並將圖片轉化為tensor。最後讀取第一張圖片並顯示。

# 資料處理
import os
import torch
from torch.utils import data
from PIL import Image
import numpy as np
from torchvision import transforms

transform = transforms.Compose([
 transforms.ToTensor(),# 將圖片轉換為Tensor,歸一化至[0,1]
 # transforms.Normalize(mean=[.5,.5,.5],std=[.5,.5]) # 標準化至[-1,1]
])

#定義自己的資料集合
class FlameSet(data.Dataset):
 def __init__(self,root):
  # 所有圖片的絕對路徑
  imgs=os.listdir(root)
  self.imgs=[os.path.join(root,k) for k in imgs]
  self.transforms=transform

 def __getitem__(self,index):
  img_path = self.imgs[index]
  pil_img = Image.open(img_path)
  if self.transforms:
   data = self.transforms(pil_img)
  else:
   pil_img = np.asarray(pil_img)
   data = torch.from_numpy(pil_img)
  return data

 def __len__(self):
  return len(self.imgs)

if __name__ == '__main__':
 dataSet=FlameSet('./test')
 print(dataSet[0])

顯示結果：

pytorch載入自己的影象資料集例項

補充知識：使用Pytorch進行讀取本地的MINIST資料集並進行裝載

pytorch中的torchvision.datasets中自帶MINIST資料集，可直接呼叫模組進行獲取，也可以進行自定義自己的Dataset類進行讀取本地資料和初始化資料。

1. 直接使用pytorch自帶的MNIST進行下載:

缺點: 下載速度較慢，而且如果中途下載失敗一般得是重新進行執行程式碼進行下載:

# # 訓練資料和測試資料的下載
# 訓練資料和測試資料的下載
trainDataset = torchvision.datasets.MNIST( # torchvision可以實現資料集的訓練集和測試集的下載
  root="./data",# 下載資料，並且存放在data資料夾中
  train=True,# train用於指定在資料集下載完成後需要載入哪部分資料，如果設定為True，則說明載入的是該資料集的訓練集部分；如果設定為False，則說明載入的是該資料集的測試集部分。
  transform=transforms.ToTensor(),# 資料的標準化等操作都在transforms中，此處是轉換
  download=True # 瞎子啊過程中如果中斷，或者下載完成之後再次執行，則會出現報錯
)

testDataset = torchvision.datasets.MNIST(
  root="./data",train=False,transform=transforms.ToTensor(),download=True
)

2. 自定義dataset類進行資料的讀取以及初始化。

其中自己下載的MINIST資料集的內容如下:

pytorch載入自己的影象資料集例項

自己定義的dataset類需要繼承: Dataset

需要實現必要的魔法方法:

__init__魔法方法裡面進行讀取資料檔案

__getitem__魔法方法進行支援下標訪問

__len__魔法方法返回自定義資料集的大小，方便後期遍歷

示例如下:

class DealDataset(Dataset):
  """
    讀取資料、初始化資料
  """
  def __init__(self,folder,data_name,label_name,transform=None):
    (train_set,train_labels) = load_minist_data.load_data(folder,label_name) # 其實也可以直接使用torch.load(),讀取之後的結果為torch.Tensor形式
    self.train_set = train_set
    self.train_labels = train_labels
    self.transform = transform

  def __getitem__(self,index):

    img,target = self.train_set[index],int(self.train_labels[index])
    if self.transform is not None:
      img = self.transform(img)
    return img,target

  def __len__(self):
    return len(self.train_set)

其中load_minist_data.load_data也是我們自己寫的讀取資料檔案的函式，即放在了load_minist_data.py中的load_data函式中。具體實現如下:

def load_data(data_folder,label_name):
 """
    data_folder: 檔案目錄
    data_name： 資料檔名
    label_name：標籤資料檔名
  """
 with gzip.open(os.path.join(data_folder,label_name),'rb') as lbpath: # rb表示的是讀取二進位制資料
  y_train = np.frombuffer(lbpath.read(),np.uint8,offset=8)

 with gzip.open(os.path.join(data_folder,data_name),'rb') as imgpath:
  x_train = np.frombuffer(
    imgpath.read(),offset=16).reshape(len(y_train),28,28)
 return (x_train,y_train)

編寫完自定義的dataset就可以進行例項化該類並裝載資料:

# 例項化這個類，然後我們就得到了Dataset型別的資料，記下來就將這個類傳給DataLoader，就可以了。
trainDataset = DealDataset('MNIST_data/',"train-images-idx3-ubyte.gz","train-labels-idx1-ubyte.gz",transform=transforms.ToTensor())
testDataset = DealDataset('MNIST_data/',"t10k-images-idx3-ubyte.gz","t10k-labels-idx1-ubyte.gz",transform=transforms.ToTensor())

# 訓練資料和測試資料的裝載
train_loader = dataloader.DataLoader(
  dataset=trainDataset,batch_size=100,# 一個批次可以認為是一個包，每個包中含有100張圖片
  shuffle=False,)

test_loader = dataloader.DataLoader(
  dataset=testDataset,shuffle=False,)

構建簡單的神經網路並進行訓練和測試:

class NeuralNet(nn.Module):

  def __init__(self,input_num,hidden_num,output_num):
    super(NeuralNet,self).__init__()
    self.fc1 = nn.Linear(input_num,hidden_num)
    self.fc2 = nn.Linear(hidden_num,output_num)
    self.relu = nn.ReLU()

  def forward(self,x):
    x = self.fc1(x)
    x = self.relu(x)
    y = self.fc2(x)
    return y

# 引數初始化
epoches = 5
lr = 0.001
input_num = 784
hidden_num = 500
output_num = 10
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 產生訓練模型物件以及定義損失函式和優化函式
model = NeuralNet(input_num,output_num)
model.to(device)
criterion = nn.CrossEntropyLoss() # 使用交叉熵作為損失函式
optimizer = optim.Adam(model.parameters(),lr=lr)

# 開始迴圈訓練
for epoch in range(epoches): # 一個epoch可以認為是一次訓練迴圈
  for i,data in enumerate(train_loader):
    (images,labels) = data
    images = images.reshape(-1,28*28).to(device)
    labels = labels.to(device)
    output = model(images) # 經過模型物件就產生了輸出
    loss = criterion(output,labels.long()) # 傳入的引數: 輸出值(預測值),實際值(標籤)
    optimizer.zero_grad() # 梯度清零
    loss.backward()
    optimizer.step()

    if (i+1) % 100 == 0: # i表示樣本的編號
      print('Epoch [{}/{}],Loss: {:.4f}'
         .format(epoch + 1,epoches,loss.item())) # {}裡面是後面需要傳入的變數
                              # loss.item
# 開始測試
with torch.no_grad():
  correct = 0
  total = 0
  for images,labels in test_loader:
    images = images.reshape(-1,28*28).to(device) # 此處的-1一般是指自動匹配的意思,即不知道有多少行，但是確定了列數為28 * 28
                           # 其實由於此處28 * 28本身就已經等於了原tensor的大小，所以，行數也就確定了，為1
    labels = labels.to(device)
    output = model(images)
    _,predicted = torch.max(output,1)
    total += labels.size(0) # 此處的size()類似numpy的shape: np.shape(train_images)[0]
    correct += (predicted == labels).sum().item()
  print("The accuracy of total {} images: {}%".format(total,100 * correct/total))

以上這篇pytorch載入自己的影象資料集例項就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

PyTorch載入自己的資料集例項詳解

資料預處理在解決深度學習問題的過程中，往往需要花費大量的時間和精力。資料處理的質量對訓練神經網路來說十分重要，良好的資料處理不僅會加速模型訓練，更會提高模型效能。為解決這一問題，PyTorch提供了幾個高效

pytorch載入自己的影象資料集例項

yolov5-pytorch訓練自己的資料集

技術標籤：pytorch 程式碼下載這個是github的下載地址 git clone https://github.com/ultralytics/yolov5

pytorch 資料處理:定義自己的資料集合例項

資料處理版本1 #資料處理 import os import torch from torch.utils import data from PIL import Image

pytorch實現建立自己的資料集(以mnist為例)

本文將原始的numpy array資料在pytorch下封裝為Dataset類的資料集，為後續深度網路訓練提供資料。

pytorch版CenterNet訓練自己的資料集

CenterNet(Objects as points)已經有一段時間了，之前這篇文章-【目標檢測Anchor-Free】CVPR 2019 Object as Points（CenterNet）中講解了CenterNet的原理，可以回顧一下。

為深度學習模型載入自定義影象資料集：第1部分

作者|Renu Khandelwal 編譯|VK 來源|Towards Data Science 在本文中，你將學習如何載入自定義資料和建立影象序列和測試資料集，作為深度學習模型的輸入。

利用transforms Dataset DataLoader對影象資料進行處理並構建自己的資料集

技術標籤：python機器學習計算機視覺深度學習pytorch 1. torchvision.transforms 在CV任務中，可以用此對影象進行預處理，資料增強等操作

Pytorch 怎麼構建自己的資料集。怎麼重寫官方資料集。

技術標籤：機器學習pytorch深度學習機器學習神經網路影象處理小白記錄，大神勿擾

pytorch，tensorflow載入本地mnist資料集

技術標籤：tensorflowpytorchtensorflowpytorch 1. pytorch import torch import torch.nn as nn from torchvision import datasets, transforms

SQLserver中cube：多維資料集例項詳解

1、cube:生成多維資料集，包含各維度可能組合的交叉表格，使用with 關鍵字連線 with cube

pytorch 批次遍歷資料集列印資料的例子

我就廢話不多說了，直接上程式碼吧！ from os import listdir import os from time import time

使用PyTorch訓練一個影象分類器例項

如下所示： import torch import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt

將自己的資料集製作成TFRecord格式教程

在使用TensorFlow訓練神經網路時，首先面臨的問題是：網路的輸入此篇文章，教大家將自己的資料集製作成TFRecord格式，feed進網路，除了TFRecord格式，TensorFlow也支援其他格

C#使用TensorFlow.NET訓練自己的資料集的方法

今天，我結合程式碼來詳細介紹如何使用 SciSharp STACK 的 TensorFlow.NET 來訓練CNN模型，該模型主要實現影象的分類，可以直接移植該程式碼在 CPU 或 GPU 下使用，並針對你們自己本地的影象資料集進行訓練和推理。

object_detection Faster_rcnn win10訓練自己的資料集

https://blog.csdn.net/qq_28019591/article/details/82023949 https://blog.csdn.net/dy_guox/article/details/79111949

Windows版YOLOv4目標檢測實戰：訓練自己的資料集

課程連結：https://edu.51cto.com/course/22982.html 課程演示環境：Windows10; cuda 10.2; cudnn7.6.5; Python3.7; VisualStudio2019; OpenCV3.4

keras-siamese用自己的資料集實現詳解

Siamese網路不做過多介紹，思想並不難，輸入兩個影象，輸出這兩張影象的相似度，兩個輸入的網路結構是相同的，引數共享。

在Keras中利用np.random.shuffle()打亂資料集例項

我就廢話不多說了，大家還是直接看程式碼吧~ from numpy as np index=np.arange(2000) np.random.shuffle(index)

pytorch VGG11識別cifar10資料集(訓練+預測單張輸入圖片操作)

首先這是VGG的結構圖，VGG11則是紅色框裡的結構，共分五個block，如紅框中的VGG11第一個block就是一個conv3-64卷積層：

pytorch載入自己的影象資料集例項

相關推薦