Pytorch技巧:DataLoader的collate_fn引數使用詳解

阿新 • • 發佈：2020-01-09

DataLoader完整的引數表如下：

class torch.utils.data.DataLoader(
 dataset,batch_size=1,shuffle=False,sampler=None,batch_sampler=None,num_workers=0,collate_fn=<function default_collate>,pin_memory=False,drop_last=False,timeout=0,worker_init_fn=None)

DataLoader在資料集上提供單程序或多程序的迭代器

幾個關鍵的引數意思：

- shuffle：設定為True的時候，每個世代都會打亂資料集

- collate_fn：如何取樣本的，我們可以定義自己的函式來準確地實現想要的功能

- drop_last：告訴如何處理資料集長度除於batch_size餘下的資料。True就拋棄，否則保留

一個測試的例子

import torch
import torch.utils.data as Data
import numpy as np

test = np.array([0,1,2,3,4,5,6,7,8,9,10,11])

inputing = torch.tensor(np.array([test[i:i + 3] for i in range(10)]))
target = torch.tensor(np.array([test[i:i + 1] for i in range(10)]))

torch_dataset = Data.TensorDataset(inputing,target)
batch = 3

loader = Data.DataLoader(
 dataset=torch_dataset,batch_size=batch,# 批大小
 # 若dataset中的樣本數不能被batch_size整除的話，最後剩餘多少就使用多少
 collate_fn=lambda x:(
  torch.cat(
   [x[i][j].unsqueeze(0) for i in range(len(x))],0
   ).unsqueeze(0) for j in range(len(x[0]))
  )
 )

for (i,j) in loader:
 print(i)
 print(j)

輸出結果：

tensor([[[ 0,2],[ 1,3],[ 2,4]]],dtype=torch.int32)
tensor([[[ 0],[ 1],[ 2]]],dtype=torch.int32)
tensor([[[ 3,5],[ 4,6],[ 5,7]]],dtype=torch.int32)
tensor([[[ 3],[ 4],[ 5]]],dtype=torch.int32)
tensor([[[ 6,8],[ 7,9],[ 8,10]]],dtype=torch.int32)
tensor([[[ 6],[ 7],[ 8]]],dtype=torch.int32)
tensor([[[ 9,11]]],dtype=torch.int32)
tensor([[[ 9]]],dtype=torch.int32)

如果不要collate_fn的值，輸出變成

tensor([[ 0,4]],dtype=torch.int32)
tensor([[ 0],[ 2]],dtype=torch.int32)
tensor([[ 3,7]],dtype=torch.int32)
tensor([[ 3],[ 5]],dtype=torch.int32)
tensor([[ 6,10]],dtype=torch.int32)
tensor([[ 6],[ 8]],dtype=torch.int32)
tensor([[ 9,11]],dtype=torch.int32)
tensor([[ 9]],dtype=torch.int32)

所以collate_fn就是使結果多一維。

看看collate_fn的值是什麼意思。我們把它改為如下

collate_fn=lambda x:x

並輸出

for i in loader:
 print(i)

得到結果

[(tensor([ 0,dtype=torch.int32),tensor([ 0],dtype=torch.int32)),(tensor([ 1,tensor([ 1],(tensor([ 2,4],tensor([ 2],dtype=torch.int32))]
[(tensor([ 3,tensor([ 3],(tensor([ 4,tensor([ 4],(tensor([ 5,7],tensor([ 5],dtype=torch.int32))]
[(tensor([ 6,tensor([ 6],(tensor([ 7,tensor([ 7],(tensor([ 8,10],tensor([ 8],dtype=torch.int32))]
[(tensor([ 9,11],tensor([ 9],dtype=torch.int32))]

每個i都是一個列表，每個列表包含batch_size個元組，每個元組包含TensorDataset的單獨資料。所以要將重新組合成每個batch包含1*3*3的input和1*3*1的target，就要重新解包並打包。看看我們的collate_fn：

collate_fn=lambda x:(
 torch.cat(
  [x[i][j].unsqueeze(0) for i in range(len(x))],0
  ).unsqueeze(0) for j in range(len(x[0]))
 )

j取的是兩個變數：input和target。i取的是batch_size。然後通過unsqueeze(0)方法在前面加一維。torch.cat(,0)將其打包起來。然後再通過unsqueeze(0)方法在前面加一維。完成。

以上這篇Pytorch技巧:DataLoader的collate_fn引數使用詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

pytorch BatchNorm引數詳解，計算過程

https://blog.csdn.net/weixin_39228381/article/details/107896863 目錄說明 BatchNorm1d引數 num_features

PHP定時備份MySQL與mysqldump語法引數詳解

先來為大家介紹幾個MySQL備份命令mysqldump常用操作例項： 1、mysqldump備份只匯出表結構

MySQL中slave_exec_mode引數詳解

今天無意當中看到引數slave_exec_mode，從手冊裡的說明看出該引數和MySQL複製相關，是可以動態修改的變數，預設是STRICT模式（嚴格模式），可選值有IDEMPOTENT模式（冪等模式）。設定成IDEMPOTENT模式可以讓從庫避免

pytorch之ImageFolder使用詳解

pytorch之ImageFolder torchvision已經預先實現了常用的Dataset，包括前面使用過的CIFAR-10，以及ImageNet、COCO、MNIST、LSUN等資料集，可通過諸如torchvision.datasets.CIFAR10來呼叫。在這裡介紹一個會經常使用到

pytorch AvgPool2d函式使用詳解

我就廢話不多說了，直接上程式碼吧！ import torch import torch.nn as nn import torch.nn.functional as F

sklearn-SVC實現與類引數詳解

sklearn-SVC實現與類引數對應的API：http://scikit-learn.sourceforge.net/stable/modules/generated/sklearn.svm.SVC.html

Python函式中的可變長引數詳解

一、Python函式中的引數 1、使用python的函式時，有引數類別，比如位置引數、關鍵字引數、可變長引數

pytorch 常用線性函式詳解

Pytorch的線性函式主要封裝了Blas和Lapack，其用法和介面都與之類似。常用的線性函式如下：

C#實現String字串轉化為SQL語句中的In後接的引數詳解

實現把String字串轉化為In後可用引數程式碼： public string StringToList(string aa) { string bb1 = \"(\";

Pytorch之finetune使用詳解

finetune分為全域性finetune和區域性finetune。首先介紹一下區域性finetune步驟： 1.固定引數

Webpack中SplitChunksPlugin 配置引數詳解

程式碼分割本身和 webpack 沒有什麼關係，但是由於使用 webpack 可以非常輕鬆地實現程式碼分割，所以提到程式碼分割首先就會想到使用 webopack 實現。

python matplotlib:plt.scatter() 大小和顏色引數詳解

語法 plt.scatter(x,y,s=20,c=\'b\') 大小s預設為20，s=0時點不顯示；顏色c預設為藍色。

scrapy爬蟲:scrapy.FormRequest中formdata引數詳解

1. 背景在網頁爬取的時候，有時候會使用scrapy.FormRequest向目標網站提交資料（表單提交）。參照scrapy官方文件的標準寫法是：

Anaconda＋vscode＋pytorch環境搭建過程詳解

1、安裝Anaconda Anaconda指的是一個開源的Python發行版本，其包含了conda、Python等180多個科學包及其依賴項。在官網上下載https://www.anaconda.com/distribution/，因為伺服器在國外會很慢，建議從清華映象https:

object detection api調參詳解（兼SSD演演算法引數詳解）

一、引言使用谷歌提供的object detection api影象識別框架，我們可以很方便地重新訓練一個預訓練模型，用於自己的具體業務。以我所使用的ssd_mobilenet_v1預訓練模型為例，訓練所需引數都在training資料夾下的ssd_m

SpringBoot配置檔案application.properties引數詳解

轉自：https://www.jianshu.com/p/a4bb58331107 1 # ---------------------------------------- 2 # CORE PROPERTIES

MySQL配置檔案引數詳解

Windows中是my.ini Linux中是my.cnf #*** client options 相關選項 ***# #以下選項會被MySQL客戶端應用讀取。注意只有MySQL附帶的客戶端應用程式保證可以讀取這段內容。如果你想你自己的MySQL應用程式獲取這些值。

PyTorch的nn.Linear()詳解

1. nn.Linear() nn.Linear()：用於設定網路中的全連線層，需要注意的是全連線層的輸入與輸出都是二維張量

pandas.DataFrame.plot( )引數詳解

使用DataFrame的plot方法繪製圖像會按照資料的每一列繪製一條曲線，預設按照列columns的名稱在適當的位置展示圖例，比matplotlib繪製節省時間，且DataFrame格式的資料更規範，方便向量化及計算。

邏輯迴歸引數詳解

邏輯迴歸方法： class sklearn.linear_model.LogisticRegression(penalty=\'l2\', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=\'

Pytorch技巧:DataLoader的collate_fn引數使用詳解

相關推薦