imagenet 資料集讀取資料速度記錄

阿新 • • 發佈：2020-12-24

電腦配置是固態硬碟，i7cpu，不進行計算，只讀資料，不做資料增廣，只做resize

目錄：
1，最初級版

1，最初級版

DataLoader(train_dataset, batch_size=16, shuffle=True,
                              num_workers=0, pin_memory=True, drop_last=True, )

2020-12-23 11:20:06
0
2020-12-23 11:21:53
10000
讀取了一萬張圖片花費時間107秒，採用的程式是最直接的pytorch的data loader結構，
全部圖片大約130W張，讀取全部資料預計花費13000秒，除以3600即是3.61小時。

將batch size從16變為256看是否有關係？

DataLoader(train_dataset, batch_size=256, shuffle=True,
                              num_workers=0, pin_memory=True, drop_last=True, )

2020-12-23 11:26:53
0
2020-12-23 11:28:40
10240

也是107秒，沒任何關係

worker數量調為4

2020-12-23 11:30:30
0
2020-12-23 11:31:14
10240

花費44秒，全部讀完 130W /10000 *44 /3600=1.59小時
速度大約快了一倍

worker 8

2020-12-23 11:36:04
0
2020-12-23 11:36:45
10240
41秒，沒怎麼快 1.48 小時

感覺那個key每次生成一個keylist會很慢，將其加到記憶體試試

self.keys=list(self.truth.keys())

    def __len__(self):
        return len(self.keys)

    # 返回的box為xmin,ymin,xmax,ymax絕對座標，影象為未白化的float32影象
    def __getitem__(self, index):
        img_path = self.keys[index]

train_loader = DataLoader(train_dataset, batch_size=256, shuffle=True,
                              num_workers=4, pin_memory=True, drop_last=True, )

2020-12-23 11:45:51
0
2020-12-23 11:46:11
10240

花費20秒，這個讀全部圖片大約花費54分鐘

3，這一次使用lmdb來加速

train_loader = DataLoader(train_dataset, batch_size=256, shuffle=True,
                              num_workers=0, pin_memory=True, drop_last=True, )

2020-12-23 14:46:37
0
2020-12-23 14:47:19
10240

花費40秒，大約1.48小時讀完

workers調成4報錯。。但是就算調成4的話，快一倍多一點，也就是小於但接近20秒，似乎提升不大。

改進

看教程https://www.cnblogs.com/jiangkejie/p/13192518.html
似乎要修改下，修改後
2020-12-23 14:58:15
0
2020-12-23 14:58:59
10240
沒啥卵用啊，44秒，還慢了。而且workers 4就報錯。

再改進

2020-12-23 15:04:22
env
env
env
env
0

2020-12-23 15:04:37
10240

把env放到類的外面，變成全域性變數，就可以4worker了，速度為15秒，快了一丟丟。

2020-12-23 15:11:24
10240

2020-12-23 15:11:35
20480

2020-12-23 15:11:50
30720

129024
2020-12-23 15:13:49

15*320/3600 =0.54 這次大約半小時就可以讀完全部資料。就這樣吧

2020-12-23 15:21:04
env
env
env
env
0
2020-12-23 15:21:20
10240

2020-12-23 15:21:32
20480

2020-12-23 15:21:59
43008

殘差網路訓練了118個epoch，因此我們需要訓練至少118*0.5小時，也即是59小時。
放棄！

imagenet 資料集讀取資料速度記錄

技術標籤：神經網路技術電腦配置是固態硬碟，i7cpu，不進行計算，只讀資料，不做資料增廣，只做resize

MNIST資料集讀取-datasets.MNIST

技術標籤：影象處理深度學習 #%% import torch from torchvision import datasets from torch.utils.data import DataLoader

pytorch 批次遍歷資料集列印資料的例子

我就廢話不多說了，直接上程式碼吧！ from os import listdir import os from time import time

UCMD資料集旋轉資料增強

技術標籤：python學習由於UCMD資料集較少，只有2100張，使用旋轉資料增強，此程式碼用於增強2100張。

pytorch資料集和資料處理部分dataset自定義、繼承

https://blog.csdn.net/zhenaoxi1077/article/details/80953227 一、資料載入在Pytorch 中，資料載入可以通過自己定義的資料集物件來實現。資料集物件被抽象為Dataset類，實現自己定義的資料集需要繼承Dataset,

MNIST 資料集、資料載入

目錄 MNIST 資料集資料載入transforms MNIST 資料集機器學習的入門就是MNIST。 MNIST 資料集來自美國國家標準與技術研究所，是NIST（National Institute of Standards and Technology）的縮小版，訓練集（t

Pytorch 實現資料集自定義讀取

以讀取VOC2012語義分割資料集為例，具體見程式碼註釋： VocDataset.py from PIL import Image

pandas分批讀取大資料集教程

如果你的電腦記憶體較小那麼想在本地做一些事情是很有侷限性的（哭喪臉），比如想拿一個kaggle上面的競賽來練練手，你會發現多數訓練資料集都是大幾G或者幾十G的，自己那小破電腦根本跑不起來。行，你有8000w條樣本你

基於Tensorflow讀取MNIST資料集時網路超時的解決方式

最近在學習TensorFlow，比較煩人的是使用tensorflow.examples.tutorials.mnist.input_data讀取資料

記錄以下CuLane資料集編譯成功

cmake後 (lane) [email protected]:/media/ubuntu-502/ABC/code/SCNN_Pytorch$ python test_CULane.py --exp_dir ./experiments/exp10

一個使下載國外資料集速度提升一千倍以上的方法

技術標籤：踩坑總結深度學習資料集在有外網許可權的條件下，使用終端下載下面的資料集時，速度慢的驚人只有十幾k，按照這個速度，我能下一天，同時過久的下載很可能會中斷，導致一直下載失敗理論上有外網，同時

h5py檔案的建立和讀取，資料集的製作也不算很難

技術標籤：DeepLearningpython深度學習文章目錄前言一、h5py是什麼？二、建立h5檔案1.引入庫2.構建函式

如何加快C++讀取資料的速度

技術標籤：閒聊我們來聊聊C++有時經常會遇到的瓶頸——讀寫。參考：https://byvoid.com/zhs/blog/fast-readfile/

中讀取資料_Pyspark處理資料中帶有列分隔符的資料集

技術標籤：中讀取資料本篇文章目標是處理在資料集中存在列分隔符或分隔符的特殊場景。對於Pyspark開發人員來說，處理這種型別的資料集有時是一件令人頭疼的事情，但無論如何都必須處理它。

【Tensorflow】tensorflow和keras+讀取官方版本的MNIST資料集

技術標籤：Tensorflow 1.資料集介紹 tensorflow官方mnist：（放在database2資料夾下面）

python 用 read_csv讀取資料集時刪除某幾列元素

技術標籤：pythonpython 首先用把所有的資料讀進來並轉換成列表的形式。讀進來的資料格式為列表套列表。

java從Excle中讀取資料集

pom.xml： <dependency> <groupId>net.sourceforge.jexcelapi</groupId> <artifactId>jxl</artifactId>

pytorch讀取自己的csv資料集

自己需要完成一個基於時序訊號資料的自編碼器，但是在讀取資料時遇到了一些困難。資料集（無標籤）由csv檔案構成，每個資料樣本為一個csv檔案，csv檔案中的資料為4列512行。

Spark 系列（三）—— 彈性式資料集RDDs

彈性式資料集RDDs 一、RDD簡介 RDD 全稱為 Resilient Distributed Datasets，是 Spark 最基本的資料抽象，它是隻讀的、分割槽記錄的集合，支援並行操作，可以由外部資料集或其他 RDD 轉換而來，它具有以下特性：

如何在海量資料中判斷某條記錄是否存在-布隆過濾器的使用(JDK版和Redis版)

場景爬蟲時判斷某個URL是否已經被爬取過黑名單過濾防止快取穿透 ... 實現原理

imagenet 資料集讀取資料速度記錄

1，最初級版

將batch size從16變為256看是否有關係？

worker數量調為4

worker 8

感覺那個key每次生成一個keylist會很慢，將其加到記憶體試試

3，這一次使用lmdb來加速

改進

再改進

相關推薦