pytorch中的自定義資料處理詳解

阿新 • • 發佈：2020-01-09

pytorch在資料中採用Dataset的資料儲存方式，需要繼承data.Dataset類，如果需要自己處理資料的話，需要實現兩個基本方法。

：.getitem:返回一條資料或者一個樣本，obj[index] = obj.getitem(index). :.len:返回樣本的數量。 len(obj) = obj.len()。

Dataset 在data裡，呼叫的時候使用

from torch.utils import data
import os
from PIL import Image

資料在呼叫getitem的時候才會讀取圖片資料，如果需要可以修改成自己的getitem函式，根據自己的資料集來設定，比如

def _getitem_(self,index):
   img_path=self.imgs[index]; ##這裡理解是載入了所有影象的路徑，封裝成自身的格式
   labels=[] ##根據自己的格式進行處理
   pil_img=Image.open(img_path); ##根據上面封裝好的格式進行讀取
   array=np.array(pil_img); ##將讀取的影象轉成array資料表示的格式
   data=t.from_numpy(array) #轉成Tensor格式，方便後面網路操作
   return data,label;

def _len_(self):
   return len(self.imgs); ###imgs是一個絕對路徑

在主函式裡呼叫的時候，只需使用

dataset=Dataset('') ##或者呼叫自定義的資料處理類
data,label=dataset[0]; ##相當於呼叫了dataset.__getitem__(0)
for img,label in dataset:  ##裡面也是以字典形式存放
  print(img.size(),imf.float().mean(),label);

採用Dataset的缺點在於實際中影象的大小不一，對資料處理中很不友好，其次資料太大，容易造成溢位，需要進行歸一化，因此torchvision提供了transforms模組對Image進行和Tensor進行操作。

對PIL_Image的常見操作：

Scale,調整影象尺寸。centerCrop：randomcrop:randomsizecrop:裁剪圖片

pad:填充

ToTensor:將Image影象轉化成tensor，並自動歸一化到[0,1]

對Tensor的常見操作：

Normalize:標準化，減去均值，除以標準差。 ToPILImage:將Tensor轉變成PILImage格式，可以方便後續的視覺化。

—————————我是分割線—————————

上面介紹了需要自定義的資料處理方法，pytorch早封裝好了比較常用方便的方法.

transforms中的ImageFolder,該類的好處是，所有檔案按照類別進行儲存，檔名就是類別名，不需要另外再生成label.txt了，也不需要像上面預處理下Label，該類會自動生成標籤，建構函式如下：

ImageFolder(root,transform= None,target_transforms=None,loader=default_loader) ##其中root指定路徑，transform:對PIL_Image進行轉換操作，輸入引數是loader的返回物件。target_transform：是label的轉換，loader:是指定載入圖片的函式，預設操作是讀取為PIL_Image物件。

通過該函式得到的Lable按照資料夾名順序排序後形成字典的，比如{類名：序號從0開始}

,一般最好把資料夾命名為從0開始的數字，和Imageloader的實際的Lable一致，如果不是，可以通過self.class_to_ids來檢視你得到的資料的對映關係，比如你的資料夾是cat和dog，那麼loader就是自動從0開始標籤，self.class_to_ids得到的就是{‘cat':0,'dog':1}。

dataset=ImageLoader('root');
dataset.imgs ##返回圖片路徑和對應的標籤
dataset[5][1] ;##返回第5張圖的標籤
dataset[5][0]; ##返回第5張圖的影象資料，顯示出來的就是一副影象，這時候並沒有轉成Tensor格式,所以需要手動轉換
dataset[0][0].size(); ##輸出第一個影象的大小
##得到的結果如下，表示該影象是3通道，大小為224*224
[3,224,224];

###定義一個transform，對資料進行各種預處理。

mytransform=T.Compose([
   randomSize;
   T.ToTensor()， ##重點是要記得轉成Tensor格式
    normlize；
])；
dataset=ImageLoader('root',transform=mytransform);

呼叫ImageLoader把讀取的影象轉成dataset儲存後，再使用DataLoader對上面得到的影象tensor資料進行抽樣，打亂和分批次操作，操作格式如下：

DataLoader(dataset,batch_size,shuffle=False,sampler=None,num_workers=0,collate_fn=default,pin_memory=False,drop_last=False);

其中：

dataset：載入得到的dataset物件，就是上面得到的DataSet和ImageLoader得到的物件(ImageLoader需要進行tensor轉換後才行）。

batch_size:批處理的大小

shuffle:是否要把資料進行打亂。（這樣可以防止連續多個樣本都是同一類別）

sampler:樣本抽樣.會改變本身dataset的大小（可以在不是batch倍數的時候使用）

num_workers:多程序數量，0表示不使用多程序。

collate_fn:一般採用預設的batch拼接方式。

pin_memory;是否將資料儲存在pin_memory裡，將這的資料轉到GPU會快一些。

drop_last:有可能不是batch的整數倍，將不足一個batch的資料丟棄。

dataloader是一個迭代物件，使用方法與一個迭代器相似，例如：

for batch_data,batch_label in dataloader:
##是按照一batch的數量進行拼接的，以每batch進行迭代。

--------torchvision資料處理和視覺化常用工具--------------

models:儲存了訓練好的模型

datasets:儲存了資料集,主要包括minist，imagenet等

transforms:提供常用的資料預處理操作。

make_grid: make_grid(dataloader[0],4)：將第一個batch的影象拼接成4*4網格

save_image:直接將tensor格式的資料儲存成影象

tensorboard是tensorflow框架使用的，但是也有針對pytorch的Tensorboardx，能讀取資料並進行視覺化，使用比tensorflow的更加方便，本文主要介紹另外一種工具visdom，pytorch的專屬視覺化工具，支援資料，影象，文字，視訊的顯示。visdom有以下兩種概念：

env:環境，預設使用Main環境，不同使用者的環境可能不同，需要專門指定。

pane:窗格，用於進行視覺化，可以拖放，縮放和儲存關閉，可以多個顯示。

可以使用pip install visdom直接進行安裝，在使用visdom的時候需要注意，儲存時候需要手動指定儲存的env，其次客戶端和服務端之間互動採用tornado框架，不會受其他程式的影響。visdom需要使用nohup python -m visdom.server命令啟動,放在後臺執行。

import visdom
vis=visdom.Visdom(env=u'test')；指定一個環境，新建一個客戶端，還可以指定host和埠
x=;
y=;
vis.line(X=x,Y=y,win='sinx',opts={'title':'y=sinx'}; #畫圖
-line,-image,-text,-histgram,-scatter,-bar,-pie.

同時支援pytorch的tensor和Numpy結構，但不支援int float型別，vis.updateTrace更新之前的圖。

visdom的畫圖工具可以接受兩種，一種是image，接受二維或者三維的，前者是黑白的，後者是彩色影象，Images接受一個4維向量的nch*w,c可以是1或者3，代表黑白或者彩色的，n表示圖片的數量。

--------臨時記錄下已有的Loss函式-------

nn.CrossEntropyLoss(); ##交叉熵函式

nn.MSELoss()； ##均方差函式

nn.NLLLoss()

nn.NLL2dLoss()；

loss函式後面再學習。

以上這篇pytorch中的自定義資料處理詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

pytorch中的自定義資料處理詳解

pytorch中的自定義資料處理詳解

JavaScript中自定義swiper元件詳解

Vue中如何定義資料示例詳解

vue中的v-model原理,與元件自定義v-model詳解

spring boot微服務自定義starter原理詳解

PyTorch中topk函式的用法詳解

pytorch中的transforms模組例項詳解

pytorch中nn.Conv1d的用法詳解

python 多程序佇列資料處理詳解

Python Handler處理器和自定義Opener原理詳解

Kotlin之自定義 Live Templates詳解(模板程式碼)

android尺子的自定義view——RulerView詳解

Laravel5.5+ 使用API Resources快速輸出自定義JSON方法詳解

django Model層常用驗證器及自定義驗證器詳解

基於Python的身份證驗證識別和資料處理詳解

android 自定義dialog_Dialog 使用詳解

jquery自定義元件例項詳解

ROS服務中自定義資料型別

微信小程式靜默登入和維護自定義登入態詳解

js中基礎的資料型別詳解

pytorch中的自定義資料處理詳解

相關推薦