Pytorch DataLoader 變長資料處理方式

阿新 • • 發佈：2020-01-09

關於Pytorch中怎麼自定義Dataset資料集類、怎樣使用DataLoader迭代載入資料，這篇官方文件已經說得很清楚了，這裡就不在贅述。

現在的問題：有的時候，特別對於NLP任務來說，輸入的資料可能不是定長的，比如多個句子的長度一般不會一致，這時候使用DataLoader載入資料時，不定長的句子會被胡亂切分，這肯定是不行的。

解決方法是重寫DataLoader的collate_fn，具體方法如下：

# 假如每一個樣本為：
sample = {
	# 一個句子中各個詞的id
	'token_list' : [5,2,4,1,9,8],# 結果y
	'label' : 5,}


# 重寫collate_fn函式，其輸入為一個batch的sample資料
def collate_fn(batch):
	# 因為token_list是一個變長的資料，所以需要用一個list來裝這個batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每個label是一個int，我們把這個batch中的label也全取出來，重新組裝
  labels = [item['label'] for item in batch]
  # 把labels轉換成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,'label': labels,}


# 在使用DataLoader載入資料時，注意collate_fn引數傳入的是重寫的函式
DataLoader(trainset,batch_size=4,shuffle=True,num_workers=4,collate_fn=collate_fn)

使用以上方法，可以保證DataLoader能Load出一個batch的資料，load出來的東西就是重寫的collate_fn函式最後return出來的字典。

以上這篇Pytorch DataLoader 變長資料處理方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Pytorch DataLoader 變長資料處理方式

關於Pytorch中怎麼自定義Dataset資料集類、怎樣使用DataLoader迭代載入資料，這篇官方文件已經說得很清楚了，這裡就不在贅述。

Pytorch中的dataloader以及處理變長資料

技術標籤：深度學習自然語言處理起初，我最開始單獨訓練一個網路來完成landmark點回歸任務和分類任務，訓練的資料是txt格式，在訓練之前對資料進行分析，發現分類任務中存在嚴重的資料樣本不均衡的問題，那麼我

mysql中blob資料處理方式

具體程式碼如下所示： package epoint.mppdb_01.h3c; import java.io.File; import java.io.FileInputStream;

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

在上一篇文章tensorflow入門：tfrecord 和tf.data.TFRecordDataset的使用裡，講到了使用如何使用tf.data.TFRecordDatase來對tfrecord檔案進行batch讀取，即使用dataset的batch方法進行；但如果每條資料的長度不一樣（

Android MediaCodec的資料處理方式分析

技術標籤：androidandroid 概述 Android MediaCodec可以訪問底層的media codecs,我們很容易利用MediaCodec來構建encoder或decoder來實現音視訊編碼和音視訊解碼的功能。

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

Pytorch資料讀取機制(DataLoader)與影象預處理模組(transforms)

Pytorch資料讀取機制(DataLoader)與影象預處理模組(transforms) 1.DataLoader torch.utils.data.DataLoader():構建可迭代的資料裝載器, 訓練的時候，每一個for迴圈，每一次iteration，就是從DataLoader中獲取一個ba

pytorch中的自定義資料處理詳解

pytorch在資料中採用Dataset的資料儲存方式，需要繼承data.Dataset類，如果需要自己處理資料的話，需要實現兩個基本方法。

pytorch 資料處理:定義自己的資料集合例項

資料處理版本1 #資料處理 import os import torch from torch.utils import data from PIL import Image

Pytorch 多維陣列運算過程的索引處理方式

背景：對 python 不熟悉，能看懂程式碼，也能實現一些簡單的功能，但是對 python 的核心思想和程式設計技巧不熟，所以使 Pytorch 寫 loss 的時候遇到很多麻煩，尤其是在 batch_size > 1 的時候，做矩陣乘法之類的

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

pytorch 實現將自己的圖片資料處理成可以訓練的圖片型別

為了使用自己的影象資料，需要仿照pytorch資料輸入建立新的類，其中資料格式為numpy.ndarray。

pytorch GAN偽造手寫體mnist資料集方式

一，mnist資料集形如上圖的數字手寫體就是mnist資料集。二，GAN原理(生成對抗網路)

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch dataloader 取batch_size時候出現bug的解決方式

1、 RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 342 and 281 in dimension 3 at /pytorch/aten/src/TH/generic/THTensorMoreMath.cpp:1333