pytorch 資料處理:定義自己的資料集合例項

阿新 • • 發佈：2020-01-09

資料處理

版本1

#資料處理
import os
import torch
from torch.utils import data
from PIL import Image
import numpy as np

#定義自己的資料集合
class DogCat(data.Dataset):

  def __init__(self,root):
    #所有圖片的絕對路徑
    imgs=os.listdir(root)

    self.imgs=[os.path.join(root,k) for k in imgs]

  def __getitem__(self,index):
    img_path=self.imgs[index]
    #dog-> 1 cat ->0
    label=1 if 'dog' in img_path.split('/')[-1] else 0
    pil_img=Image.open(img_path)
    array=np.asarray(pil_img)
    data=torch.from_numpy(array)
    return data,label

  def __len__(self):
    return len(self.imgs)

dataSet=DogCat('./data/dogcat')

print(dataSet[0])

輸出：

( 
( 0,.,.) = 
215 203 191 
206 194 182 
211 199 187 
⋮ 
200 191 186 
201 192 187 
201 192 187

( 1,.) = 
215 203 191 
208 196 184 
213 201 189 
⋮ 
198 189 184 
200 191 186 
201 192 187

( 2,.) = 
215 201 188 
209 195 182 
214 200 187 
⋮ 
200 191 186 
202 193 188 
204 195 190 
…

(399,.) = 
72 90 32 
88 106 48 
38 56 0 
⋮ 
158 161 106 
87 85 36 
105 98 52 
[torch.ByteTensor of size 400x300x3],1)

上面的資料處理有下面的問題：

1.返回的樣本的形狀大小不一致，每一張圖片的大小不一樣。這對於需要batch訓練的神經網路來說很不友好。

2. 返回的資料樣本數值很大，沒有歸一化【-1,1】

對於上面的問題，pytorch torchvision 是一個視覺化的工具包，提供了很多的影象處理的工具，其中transforms模組提供了對PIL image物件和Tensor物件的常用操作。

對PIL Image常見的操作如下;

Resize 調整圖片的尺寸，長寬比保持不變

CentorCrop ，RandomCrop,RandomSizeCrop 裁剪圖片

Pad 填充

ToTensor 將PIL Image 轉換為Tensor,會自動將[0,255] 歸一化至[0,1]

對Tensor 的操作如下:

Normalize 標準化，即減均值，除以標準差

ToPILImage 將Tensor轉換為 PIL Image物件

版本2

#資料處理
import os
import torch
from torch.utils import data
from PIL import Image
import numpy as np
from torchvision import transforms

transform=transforms.Compose([
  transforms.Resize(224),#縮放圖片，保持長寬比不變，最短邊的長為224畫素,transforms.CenterCrop(224),#從中間切出 224*224的圖片
  transforms.ToTensor(),#將圖片轉換為Tensor,歸一化至[0,1]
  transforms.Normalize(mean=[.5,.5,.5],std=[.5,.5]) #標準化至[-1,1]
])

#定義自己的資料集合
class DogCat(data.Dataset):

  def __init__(self,k) for k in imgs]
    self.transforms=transform

  def __getitem__(self,index):
    img_path=self.imgs[index]
    #dog-> 1 cat ->0
    label=1 if 'dog' in img_path.split('/')[-1] else 0
    pil_img=Image.open(img_path)
    if self.transforms:
      data=self.transforms(pil_img)
    else:
      pil_img=np.asarray(pil_img)
      data=torch.from_numpy(pil_img)
    return data,.) = 
-0.1765 -0.2627 -0.1686 … -0.0824 -0.2000 -0.2627 
-0.2392 -0.3098 -0.3176 … -0.2863 -0.2078 -0.1765 
-0.3176 -0.2392 -0.2784 … -0.2941 -0.1137 -0.0118 
… ⋱ … 
-0.7569 -0.5922 -0.1529 … -0.8510 -0.8196 -0.8353 
-0.8353 -0.7255 -0.3255 … -0.8275 -0.8196 -0.8588 
-0.9373 -0.7647 -0.4510 … -0.8196 -0.8353 -0.8824

( 1,.) = 
-0.0431 -0.1373 -0.0431 … 0.0118 -0.0980 -0.1529 
-0.0980 -0.1686 -0.1765 … -0.1608 -0.0745 -0.0431 
-0.1686 -0.0902 -0.1373 … -0.1451 0.0431 0.1529 
… ⋱ … 
-0.5529 -0.3804 0.0667 … -0.7961 -0.7725 -0.7961 
-0.6314 -0.5137 -0.1137 … -0.7804 -0.7882 -0.8275 
-0.7490 -0.5608 -0.2392 … -0.7725 -0.8039 -0.8588 
… 
[torch.FloatTensor of size 3x224x224],1)

專案的github地址：https://github.com/WebLearning17/CommonTool

以上這篇pytorch 資料處理:定義自己的資料集合例項就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

pytorch 資料處理:定義自己的資料集合例項

資料處理版本1 #資料處理 import os import torch from torch.utils import data from PIL import Image

python資料處理中Pandas資料處理及分析----超詳細

實現Pandas自行車行駛資料分析假設現在有一組自行車行駛資料，這組資料記錄的是蒙特利爾市內7條自行車道的自行車騎行人數，下面用python中的pandas對其進行分析。原始資料找我要就行QQ 2534659467 註明來意

pytorch中的自定義資料處理詳解

pytorch在資料中採用Dataset的資料儲存方式，需要繼承data.Dataset類，如果需要自己處理資料的話，需要實現兩個基本方法。

pytorch 實現將自己的圖片資料處理成可以訓練的圖片型別

為了使用自己的影象資料，需要仿照pytorch資料輸入建立新的類，其中資料格式為numpy.ndarray。

pytorch資料集和資料處理部分dataset自定義、繼承

https://blog.csdn.net/zhenaoxi1077/article/details/80953227 一、資料載入在Pytorch 中，資料載入可以通過自己定義的資料集物件來實現。資料集物件被抽象為Dataset類，實現自己定義的資料集需要繼承Dataset,

Pytorch DataLoader 變長資料處理方式

關於Pytorch中怎麼自定義Dataset資料集類、怎樣使用DataLoader迭代載入資料，這篇官方文件已經說得很清楚了，這裡就不在贅述。

計算pytorch標準化(Normalize)所需要資料集的均值和方差例項

pytorch做標準化利用transforms.Normalize(mean_vals,std_vals)，其中常用資料集的均值方差有：

python資料處理——對pandas進行資料變頻或插值例項

這裡首先要介紹官方文件，對python有了進一步深度的學習的大家們應該會發現，網上不管csdn或者簡書上還是什麼地方，教程來源基本就是官方文件，所以英語只要還過的去，推薦看官方文件，就算不夠好，也可以只看它裡面

pytorch版CenterNet訓練自己的資料集

CenterNet(Objects as points)已經有一段時間了，之前這篇文章-【目標檢測Anchor-Free】CVPR 2019 Object as Points（CenterNet）中講解了CenterNet的原理，可以回顧一下。

freemarker：常用指令、null值的處理、基本資料型別、自定義指令

1、常用指令（1）if 資料： root.put(\"Student\",new Student(\"zhai\",32)); 模板： <body>

scala 資料結構（十三）：集合例項（二）集合計算高階函式、簡化|規約、摺疊、對兩個map集合之間的資料進行合併

例項一： package com.atguigu.scala.chapter07 /** * Author: Felix * Date: 2020/5/4 * Desc: 集合計算高階函式

scala 資料結構（十二）：集合例項（一）基本屬性和常用的操作、衍生集合、集合計算初級函式

例項一： package com.atguigu.scala.chapter07 /** * Author: Felix * Date: 2020/5/4 * Desc: 基本屬性和常用的操作

介面自動化多層巢狀json資料處理程式碼例項

最近在做介面自動化測試，響應的內容大多數是多層巢狀的json資料，在對響應資料進行校驗的時候，可以通過（key1.key2.key3）形式獲取巢狀字典值的方法獲取響應值，再和預期值比較

Series資料自定義處理函式map()

技術標籤：pandasseriesmappandas map函式相當於DataFrame中的apply函式。只不過是針對Series的。可以這麼幹：

Pytorch中的dataloader以及處理變長資料

技術標籤：深度學習自然語言處理起初，我最開始單獨訓練一個網路來完成landmark點回歸任務和分類任務，訓練的資料是txt格式，在訓練之前對資料進行分析，發現分類任務中存在嚴重的資料樣本不均衡的問題，那麼我

機器學習sklearn（十）：資料處理（五）自定義轉換器

在機器學習中，想要將一個已有的 Python 函式轉化為一個轉換器來協助資料清理或處理。可以使用FunctionTransformer從任意函式中實現一個轉換器。例如，在一個管道中構建一個實現日誌轉換的轉化器，這樣做:

C++ 基礎（十一）定義自己的資料型別

1. 類和麵向物件程式設計類型別：組合基本型別和其他型別的結構。面向物件程式設計的核心：封裝，繼承和多型。

FLINK例項(133):FLINK-SQL應用場景(24) CONNECTORS(24) 自定義 redis 資料維表(作為sink表)（附原始碼）

1.序篇-本文結構背景篇-為啥需要 redis 資料匯表目標篇-redis 資料匯表預期效果

1.7 Oracle資料庫學習教程-集合運算&資料處理

Oracle資料庫學習教程集合運算&資料處理集合運算問題:查詢部門號10和20的員工的資訊:

DeepLearning-語義分割資料處理例項

資料集：Pascal VOC2012，參考材料：動手學深度學習以下示例實現了對資料的預讀取，處理等操作

pytorch 資料處理:定義自己的資料集合例項

相關推薦