Pytorch Dataset和Dataloader 學習筆記(二)

阿新 • • 發佈：2021-06-18

Pytorch Dataset & Dataloader

Pytorch框架下的工具包中，提供了資料處理的兩個重要介面，Dataset 和 Dataloader，能夠方便的使用和按批裝載自己的資料集。

資料的預處理，載入資料並轉化為tensor格式
使用Dataset構建自己的資料
使用Dataloader裝載資料

【資料】連結：https://pan.baidu.com/s/1gdWFuUakuslj-EKyfyQYLA
提取碼：10d4
複製這段內容後開啟百度網盤手機App，操作更方便哦

資料的預處理與載入

import torch
import numpy as np
from torch.utils.data import DataLoader, Dataset

## 1. 資料的處理，載入轉化為tensor
x_data = 'X.csv'
y_data = 'y.csv'
x = np.loadtxt(x_data, delimiter=' ', dtype=np.float32)
y = np.loadtxt(y_data, delimiter=' ', dtype=np.float32).reshape(-1, 1)
x = torch.from_numpy(x[:, :])
y = torch.from_numpy(y[:, :])

torch.utils.data.Dataset

Dataset抽象類，用於包裝構建自己的資料集，該類包括三個基本的方法：

__init__ 進行資料的讀取操作
__getitem__ 資料集需支援索引訪問
__len__ 返回資料集的長度

## 2. 構建自己的資料集
class Mydataset(Dataset):
    def __init__(self, train_data, label_data):
        self.train = train_data
        self.label = label_data
        self.len = len(train_data)

    def __getitem__(self, item):
        return self.train[item], self.label[item]

    def __len__(self):
        return self.len

dataset = Mydataset(x, y)
samples = dataset.__len__()
print("總樣本數：",samples)

torch.utils.data.Dataloader

Dataloader抽象類，構建可迭代的資料集裝載器，從Dataset例項物件中按batch_size裝載資料以送入訓練。包含以下幾個引數：

batch_size 批大小
shuffle 裝載的batch是否亂序
drop_last 不足batch大小的最後部分是否捨去
num_workers 是否多程序讀取資料

## 3. 建立資料集裝載器
train_loader = DataLoader(dataset=dataset,
                          batch_size=64,
                          shuffle=True,
                          drop_last=True,
                          num_workers=4)

測試

if __name__ == "__main__":
    iteration = 0
    for train_data, train_label in train_loader:
        print("x: ", train_data, "\ny: ", train_label)
        iteration += 1
    ### 這裡dataloader中drop_last為True，所以迭代次數應為 samples/batch_size = 6
    print("每個epoch迭代次數：",iteration)

完整程式碼

import torch
import numpy as np
from torch.utils.data import DataLoader, Dataset

## 1. 資料的處理，載入轉化為tensor
x_data = 'X.csv'
y_data = 'y.csv'
x = np.loadtxt(x_data, delimiter=' ', dtype=np.float32)
y = np.loadtxt(y_data, delimiter=' ', dtype=np.float32).reshape(-1, 1)
x = torch.from_numpy(x[:, :])
y = torch.from_numpy(y[:, :])

## 2. 構建自己的資料集
class Mydataset(Dataset):
    def __init__(self, train_data, label_data):
        self.train = train_data
        self.label = label_data
        self.len = len(train_data)

    def __getitem__(self, item):
        return self.train[item], self.label[item]

    def __len__(self):
        return self.len

dataset = Mydataset(x, y)

## 3. 建立資料集裝載器
train_loader = DataLoader(dataset=dataset,
                          batch_size=64,
                          shuffle=True,
                          drop_last=True,
                          num_workers=4)

if __name__ == "__main__":
    iteration = 0
    samples = dataset.__len__()
    print("總樣本數：", samples)
    for train_data, train_label in train_loader:
        print("x: ", train_data, "\ny: ", train_label)
        iteration += 1
    ### 這裡dataloader中drop_last為True，所以迭代次數應為 samples/batch_size = 6
    print("每個epoch迭代次數：",iteration)

Pytorch Dataset和Dataloader 學習筆記(二)

Pytorch Dataset & Dataloader Pytorch框架下的工具包中，提供了資料處理的兩個重要介面，Dataset 和 Dataloader，能夠方便的使用和按批裝載自己的資料集。

PyTorch學習記錄003-Dataset和DataLoader

1.utils.data包括Dataset和DataLoader torch.utils.data.Dataset為抽象類,表示Dataset的抽象類,所有其他資料集都應該進行子類化,所有子類應該override,__len__和__getitem__,前者提供了資料集的大小,後者支援整數索引

PyTorch筆記之Dataset 和 Dataloader

技術標籤：pytorch深度學習 PyTorch筆記之Dataset 和 Dataloader PyTorch筆記之 Dataset 和 Dataloader

PyTorch 解決Dataset和Dataloader遇到的問題

今天在使用PyTorch中Dataset遇到了一個問題。先看程式碼 class psDataset(Dataset): def __init__(self,x,y,transforms = None):

Linux學習筆記二(打包壓縮和常用伺服器)

day02--打包壓縮和常用伺服器 1.打包和壓縮工具的使用 1).初級版【不能壓縮目錄】

Pytorch(五) 使用DataSet和DataLoader資料載入

技術標籤：深度學習深度學習python Pytorch(五) 使用DataSet和DataLoader資料載入記錄一下DataSet和DataLoader的使用

Vuejs學習筆記(二)-2.父元件和子元件的基本使用

父元件和子元件，子元件就是父元件內部註冊的元件第九行在root根上只需要使用父元件即可，子元件也會被渲染出來

資料結構和演算法學習筆記十二:查詢

一.概述　　在工程中對資料庫的操作主要有增刪查改幾類,其中增刪改的操作都依賴查詢,畢竟得先找到資料才能進行其他操作.

FastAPI學習筆記(二)-3.請求引數和驗證

FastAPI的demo 1 \'\'\' 2 @author:invoker 3 @project:fastapi202108 4 @file: hello_world.py 5 @contact:[email protected]

SpringCloud學習筆記(二) 提供者和消費者

建立提供者子模組建module 選擇新建module 不選擇任何模板直接建立maven模組最終目錄結構如下

SpringBoot學習筆記(二)——Spring周邊生態系統

摘要在前面的兩篇文章中，分別講解了Spring的IOC容器原理，以及如何從零開始建立一個Spring容器。但是實際工作中，光有這些肯定是不夠的，還需要在這個基礎上再擴充套件資料庫、Redis快取、訊息佇列等。所以接下來

mySQL學習筆記二

DDL：操作資料庫，表 CRUD操作資料庫 1.C（create）：建立 2.R（Retrieve)：查 3.U（Update) :修改

《javascript設計模式》學習筆記二：Javascript面向物件程式設計繼承用法分析

本文例項講述了Javascript面向物件程式設計繼承用法。分享給大家供大家參考，具體如下：

activiti學習筆記二

上一篇文章大概講了下什麼是流程引擎，為什麼我們要用流程引擎，他的基本原理是啥，以及怎麼進行基本的使用，這篇文章我們再講下其他的一些使用。

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

Pytorch Dataset和Dataloader 學習筆記(二)

Pytorch Dataset & Dataloader

資料的預處理與載入

torch.utils.data.Dataset

torch.utils.data.Dataloader

測試

完整程式碼

相關推薦