如何使用tf.data讀取tfrecords資料集2

阿新 • • 發佈：2019-01-28

在檢查完了資料是否一樣後就要開始轉圖片格式，其實不一定要這一步，但是我怕資料的型別不同影響資料集的效果。

import os
import tensorflow as tf
from PIL import Image
import PIL
import matplotlib.pyplot as plt
import numpy as np
from scipy.misc import imread, imsave, imresize

cwd = r'/home/hehe/python/dataset1/washing/'

num=0
#使用os.listdir()獲取cwd裡面所有檔案，然後轉化格式儲存
for img_name in os.listdir(cwd):
    img_path = cwd + img_name


    img = Image.open(img_path)
    img = img.resize((100, 100))
     # # img.show()
    img.save('/home/hehe/python/load_cifar10/datadir/washing/washing{}.JPEG'.format(num))
    num += 1
print("change format finish")

這個是我轉化圖片的完整程式碼，在cwd裡面使用os.listdir得到所有資料的名字，然後使用PIL模組中的resize來定製大小，最後使用img.save來儲存資料到指定的資料集中。

好了，這個就是轉換圖片的程式碼。接下來就要使用程式碼為所有的資料打標籤，然後shuffle

#下面的程式碼是為了生成list.txt ， 把不同資料夾下的圖片和 數字label對應起來
import os

classes = {'bookrack':1 ,'cleaner':2, 'fan':3, 'lamp':4, 'microwave':5,
           'soft':6, 'bed':7, 'chair':0, 'washing':8, 'desk':9}
data_dir = r'/home/hehe/python/load_cifar10/datadir/'
output_path = 'list.txt'
fd = open(output_path, 'w')
for class_name in classes.keys():
    images_list = os.listdir(data_dir + class_name)
    for image_name in images_list:
        fd.write('{}/{} {}\n'.format(class_name, image_name, classes[class_name]))
fd.close()
print('finish task')

在classes裡面定義好型別，字典裡面key是資料夾的名字，value是lable。下面的程式碼是把所有檔名打亂，相當於shuffle效果

#隨機生成訓練集和驗證集(在總量中隨機選取_NUM_VALIDATION=100個樣本作為驗證集）

import random
_NUM_VALIDATION = 2000
_RANDOM_SEED = 0
list_path = 'list.txt'
train_list_path = 'list_train.txt'
val_list_path = 'list_val.txt'
fd = open(list_path)
lines = fd.readlines()
fd.close()
random.seed(_RANDOM_SEED)
random.shuffle(lines)
fd = open(train_list_path, 'w')
for line in lines[_NUM_VALIDATION:]:
    fd.write(line)
fd.close()
fd = open(val_list_path, 'w')
for line in lines[:_NUM_VALIDATION]:
    fd.write(line)
fd.close()

也有另外一種比較簡單的方案

#隨機生成訓練集和驗證集(在總量中隨機選取_NUM_VALIDATION=100個樣本作為驗證集）


import random


ratio=0.2                #選擇0.2，那麼意味著你的測試集只有20%，訓練集80%
list_path = 'list.txt'
train_list_path = 'list_train.txt'
val_list_path = 'list_val.txt'
fd = open(list_path)
lines = fd.readlines()
_NUM_VALIDATION = int(len(lines)*ratio)
_RANDOM_SEED = 0
fd.close()
random.seed(_RANDOM_SEED)
random.shuffle(lines)
fd = open(train_list_path, 'w')
for line in lines[_NUM_VALIDATION:]:
    fd.write(line)
fd.close()
fd = open(val_list_path, 'w')
for line in lines[:_NUM_VALIDATION]:
    fd.write(line)
fd.close()

這種方案只需要改變ratio的大小就夠了，很方便

如何使用tf.data讀取tfrecords資料集2

在檢查完了資料是否一樣後就要開始轉圖片格式，其實不一定要這一步，但是我怕資料的型別不同影響資料集的效果。 import os import tensorflow as tf from PIL import Image import PIL import matplotlib

如何使用tf.data讀取tfrecords資料集

tfrecords有一個問題就是如果資料集圖片數量太大了，使用傳統的方法tf.train.string_input_producer，就會報OutOfRangeError這個錯誤，至今我不知道怎麼解決，找了無數方法也不知道怎麼解決，不過引起的原因大部分是因為資料格式不一致，比

5cifar100資料集的讀取-5.1/5.2/5.3TensorFlow讀取Cifar100資料集(上/中/下)

Fast RCNN 訓練自己資料集 (2修改資料讀取介面)

Fast RCNN訓練自己的資料集（2修改讀寫介面）這裡樓主講解了如何修改Fast RCNN訓練自己的資料集，首先請確保你已經安裝好了Fast RCNN的環境，具體的編配編制操作請參考我的上一篇文章。首先可以看到fast rcnn的工程目錄下有個Lib目錄這裡下面存在3個目錄分別是： datase

tensorflow使用tf.keras.Mode寫模型並使用tf.data.Dataset作為資料輸入

單輸入,單輸出的model使用tf.data.Dataset作為資料輸入很方便,定義好資料的input和對應的label,組成一個tf.data.Dataset型別的變數,直接傳入由tf.keras.Model構成的模型進行model.fit即可,例如: a = tf.keras.l

機器學習保險行業問答開放資料集: 2. 使用案例

在上一篇文章中，介紹了資料集的設計，該語料可以用於研究和學習，從規模和質量上，是目前中文問答語料中，保險行業垂直領域最優秀的語料，關於該語料製作過程可以通過語料主頁瞭解，本篇的主要內容是使用該語料實現一個簡單的問答模型，並且給出準確度和損失函式作為資

sparkStreaming讀取kafka資料的2種方式

方式一 Receiver 使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spa

Tensorflow-tf.data 如何構建資料通道

Tensorflow.data 在訓練的時候多次迭代，如果每次獲取輸入資料都通過磁碟讀入原始圖片（文字），這將會導致做很多無用功。方法之一便是先將資料預處理好，然後將整個資料集中保到易讀入的記憶體中或者本地磁碟，訓練的時候就不用每次都要處理圖片資料了。很明顯Tensorflow便有這種介

python讀取cifar10資料集

最近學習卷積網路用到cifar10資料集，自己寫了一個工具類，用來讀取已經下載到本地的cifar10資料集。程式碼寫的不算好，但是自己用起來還可以。所以放到網上，有需要的可以拿去用。程式碼比較少，所以沒有寫註釋。下面介紹一下實現的功能。完整的程式碼可以在github上下載。地址：https:/

讀取mnist資料集顯示圖片資訊

MNIST資料集下載地址https://download.csdn.net/download/weixin_33595571/10826617 QQ群：476842922（歡迎加群討論學習） import numpy as np import struct import matplotlib

使用 Java 讀取 MNIST 資料集

使用 Java 讀取 Mnist 資料集 0. 前言好久沒寫 blog 了，沒有堅持住，心中滿滿的負罪感！！！上週一時衝動了，決定自己 code 一下 mlp (多層感知機)。最後的測試部分使用它來識別手寫數字，也就是在 MNIST 資料集上訓練並測試效果。在讀取 MNI

Pytorch打怪路（三）Pytorch建立自己的資料集2

前面一篇寫建立資料集的博文--- 是介紹的應用於影象分類任務的資料集，即輸入為一個影象和它的類別數字標籤，本篇介紹輸入的標籤label亦為影象的資料集，幷包含一些常用的處理手段。比如做影象語義分割時就會用到這種資料輸入方式。 1、資料集簡介以VOC20

法國INRIA Data Sets & Images 資料集和影象庫

Data Sets & Images Rome Patches The dataset introduced in the Patch-CKN paper is available here. Action Movie Franchises Video align

C++ —— 讀取MNIST資料集資料並轉存為影象

在上一個部落格中，我們已經對MNIST資料集的資料格式有了一定的瞭解，這裡我們要完成的工作是將讀到的資料轉成圖片，存入資料夾中，以便日後使用。在開始之前，我們先對該資料庫的儲存格式進行一個具體的介紹：MNIST（Mixed National Institute

caffe訓練自己的資料集——2. 開始訓練

一、配置檔案 1. 網路結構 henet_car_train_test.prototxt #name: "LeNet" layer { name: "mnist" type: "Data" top: "data" top: "lab

讀取COCO資料集的關鍵點座標

COCO是一個大型的CV資料庫，裡面包含了包括object detection, keypoints estimation, semantic segmentation，image caption等多個任務所需要的資料庫。這裡主要介紹一下如何用COCO提供的AP

用Tensorflow處理自己的資料：製作自己的TFRecords資料集

前言最近一直在研究深度學習，主要是針對卷積神經網路（CNN），接觸過的資料集也有了幾個，最經典的就是MNIST, CIFAR10/100, NOTMNIST, CATS_VS_DOGS 這幾種，由於這幾種是在深度學習入門中最被廣泛應用的，所以很多深

處理資料極度不均衡的資料集2

實現過程個人覺得很坎坷。下午找到了sklearn庫中有個 imblearn包，可以無腦運算，基於完成任務考慮，看了之後確實有很多收貨。更加熟悉了模型的原理，資料處理的過程和結果優化的一些理論。排除樸素隨機抽樣之外的其他方法，在增加小樣本和刪除大樣本的時候，時間消耗過於巨大，對

Matlab讀取UCI資料集Iris中資料

讀取UCI資料集iris.data中資料： >> [attrib1, attrib2, attrib3, attrib4, class] = textread('data\iris.data', '%f%f%f%f%s', 'delimiter', ',');

一起來用tf.data API！（2）——建立迭代器讀取資料

（一）前言在第一節中我們介紹了tf.data API的元件結構，我們使用Database方法來建立資料集，然後使用Iterator來讀取資料集中的元素，本節我們就來介紹如何用Iterator方法

如何使用tf.data讀取tfrecords資料集2

相關推薦