PyTorch學習記錄003-Dataset和DataLoader

阿新 • • 發佈：2020-12-09

1.utils.data包括Dataset和DataLoader

  torch.utils.data.Dataset為抽象類,表示Dataset的抽象類,所有其他資料集都應該進行子類化,所有子類應該override,__len__和__getitem__,前者提供了資料集的大小,後者支援整數索引,範圍從0到len(self)。
  自定義資料集需要繼承這個類，並實現兩個函式，一個是__len__，另一個是__getitem__前者提供資料的大小（size），後者通過給定索引獲取資料和標籤__getitem__一次只能獲取一個數據，所以需要通過torch.utils.data.DataLoader來定義一個新的迭代器，實現batch讀取。
  首先定義獲取資料集的類，該類繼承基類Dataset，自定義一個數據集及對應標籤。

class TestDataset(data.Dataset): # 繼承Dataset
    def __init__(self):
        # 一些由2維向量表示的資料集
        self.Data = np.asarray([[1,2],[3,4],[2,1],[3,4],[4,5]]) 
        # 這些是資料集對應的標籤
        self.Label = np.asarray([0,1,0,1,2])
        
    def __getitem__(self, index):
        # 把numpy轉換為tensor
        txt = torch.from_numpy(self.Data[index])
        label = torch.tensor(self.Label[index])
        return txt, label
    
    def __len__(self):
        return len(self.Data)

Test = TestDataset()
print(Test[2]) # 相當於呼叫__getitem__(2)
print(Test.__len__())

輸出：

(tensor([2, 1], dtype=torch.int32), tensor(0, dtype=torch.int32))
5

  以上資料以tuple返回，每次只返回一個樣本。實際上，Dateset只負責資料的抽取，呼叫一次__getitem__只返回一個樣本。如果希望批量處理（batch），還要同時進行shuffle和並行加速等操作，可選擇DataLoader。

DataLoader的格式為：

data.DataLoader(
	dataset,                # 載入的資料集
	batch_size=1,			# 批大小
	shuffle=False,  		# 是否將資料打亂
	sampler=None,			# 樣本抽樣
	batch_sampler=None,
	num_workers=0,			# 使用多程序載入的程序數，0代表不適用多程序
	collate_fn=<function *>	# 如何將多個樣本資料拼成一個batch
	pin_memory=False,		# 是否將資料儲存在pin memory中，pin memory中的資料轉到GPU會快一些
	drop_last=False,		# dataset中的資料個數可能不是batch_size的整數倍，drop_last為true會將多出來不足一個batch的資料丟棄
	timeout=0,
	worker_init_fn=None,
)

建立一個DataLoader：

Test = TestDataset()
test_loader = data.DataLoader(Test, batch_size = 2, 
				    	shuffle = False, 
				    	num_workers=2, 
				    	drop_last = True)
for i, traindata in enumerate(test_loader):
    print('i:{}'.format(i))
    Data, Label = traindata
    print('data:',Data)
    print('Label:', Label)

輸出：

i:0
data: tensor([[1, 2],
        [3, 4]], dtype=torch.int32)
Label: tensor([0, 1], dtype=torch.int32)
i:1
data: tensor([[2, 1],
        [3, 4]], dtype=torch.int32)
Label: tensor([0, 1], dtype=torch.int32)

  從這個結果可以看出，這是批量讀取。我們可以像使用迭代器一樣使用它，比如對它進行迴圈操作。不過由於它不是迭代器，我們可以通過iter命令將其轉換為迭代器。

dataiter = iter(test_loader)
imgs,labels = next(dataiter)

  一般用data.Dataset處理同一個目錄下的資料。如果資料在不同目錄下，因為不同的目錄代表不同類別（這種情況比較普遍），使用data.Dataset來處理就很不方便。不過，使用PyTorch另一種視覺化資料處理工具（即torchvision）就非常方便，不但可以自動獲取標籤，還提供很多資料預處理、資料增強等轉換函式。

PyTorch學習記錄003-Dataset和DataLoader

1.utils.data包括Dataset和DataLoader torch.utils.data.Dataset為抽象類,表示Dataset的抽象類,所有其他資料集都應該進行子類化,所有子類應該override,__len__和__getitem__,前者提供了資料集的大小,後者支援整數索引

Pytorch學習記錄001-Autograd和Backward

1.一個線性迴歸的例子假設你去了一些鮮為人知的地方旅遊，然後帶回了一個花哨的壁掛式模擬溫度計。這個溫度計看起來很棒，非常適合你的客廳。唯一的缺點是它不顯示單位。不用擔心，你有一個計劃。你用自己喜歡的單位

Pytorch Dataset和Dataloader 學習筆記(二)

Pytorch Dataset & Dataloader Pytorch框架下的工具包中，提供了資料處理的兩個重要介面，Dataset 和 Dataloader，能夠方便的使用和按批裝載自己的資料集。

PyTorch 解決Dataset和Dataloader遇到的問題

今天在使用PyTorch中Dataset遇到了一個問題。先看程式碼 class psDataset(Dataset): def __init__(self,x,y,transforms = None):

PyTorch筆記之Dataset 和 Dataloader

技術標籤：pytorch深度學習 PyTorch筆記之Dataset 和 Dataloader PyTorch筆記之 Dataset 和 Dataloader

Pytorch(五) 使用DataSet和DataLoader資料載入

技術標籤：深度學習深度學習python Pytorch(五) 使用DataSet和DataLoader資料載入記錄一下DataSet和DataLoader的使用

莫煩pytorch學習記錄

感謝莫煩大神Pytorch B站視訊：https://www.bilibili.com/video/av15997678?p=11 PyTorch是什麼？

PyTorch學習記錄004-torchvision

0.模組 torchvision有4個功能模組：model、datasets、transforms和utils。利用datasets可以下載一些經典資料集，本次筆記主要記錄如何使用datasets的ImageFolder處理自定義資料集，以及如何使用transforms對源資料進

PyTorch學習：載入模型和引數

PyTorch學習：載入模型和引數目錄 PyTorch學習：載入模型和引數 1. 直接載入模型和引數

Pytorch(1)-載入資料Dataset與DataLoader的使用

1.Dataset和DataLoader基礎知識圖解： 2.Dataset的關注點：　　1.如何獲取每一個數據及其label

機器學習-dataset、dataloader的使用（pytorch環境）

Dataset 官方的dataset 例子 import torchvision.datasets from torch.utils.tensorboard import SummaryWriter

PyTorch學習:動態圖和靜態圖的例子

動態圖和靜態圖目前神經網路框架分為靜態圖框架和動態圖框架，PyTorch 和 TensorFlow、Caffe 等框架最大的區別就是他們擁有不同的計算圖表現形式。 TensorFlow 使用靜態圖，這意味著我們先定義計算圖，然後不斷使用

PyTorch實現重寫/改寫Dataset並載入Dataloader

前言眾所周知，Dataset和Dataloder是pytorch中進行資料載入的部件。必須將資料載入後，再進行深度學習模型的訓練。在pytorch的一些案例教學中，常使用torchvision.datasets自帶的MNIST、CIFAR-10資料集，一般流程為

《pytorch 入門學習——2. 詞向量和語言模型》

fizz buzz 遊戲 https://zhuanlan.zhihu.com/p/105924322 word2vec：skip-gram https://zhuanlan.zhihu.com/p/105955900

[PyTorch 學習筆記] 6.1 weight decay 和 dropout

本章程式碼： https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson6/L2_regularization.py

.NET深入學習筆記(1)：DataSet和SqlDataReader效能差異深入剖析與測試(1)

宣告：這篇文章可能存在錯誤，我對於DataSet和SqlDataReader概念的理解有誤，當時主要是針對網路上一個面試的題目做出的，測試。我在核實資料後與驗證程式碼後會做出更新。

c# 使用Selenium模擬登入和操作資料的學習記錄

1、新增引用　　Selenium.WebDriver 　　Selenium.Chrome.WebDriver 2、執行程式碼：　　下面的程式碼是找到使用者列表頁，然後實現自動翻頁到最後一頁

c# 使用Selenium模擬登入和操作資料的學習記錄【續】

1、隱藏chrome視窗和設定瀏覽器解析度 ChromeOptions chromeOptions = new ChromeOptions(); chromeOptions.AddArguments(\"headless\");//隱藏google

PyTorch之Dataset和TensorDataset

技術標籤：Deep Learning深度學習pytorchtensorflow人工智慧機器學習 Deep Learning系列 @cxx

JUC練習，以及死鎖和Lock（鎖)的學習記錄

JUC併發包 package com.lean.syn; import java.util.concurrent.CopyOnWriteArrayList; //測試JUC安全型別的集合

PyTorch學習記錄003-Dataset和DataLoader

1.utils.data包括Dataset和DataLoader

相關推薦