如何使用tf.data讀取tfrecords資料集

阿新 • • 發佈：2019-02-02

tfrecords有一個問題就是如果資料集圖片數量太大了，使用傳統的方法tf.train.string_input_producer，就會報OutOfRangeError這個錯誤，至今我不知道怎麼解決，找了無數方法也不知道怎麼解決，不過引起的原因大部分是因為資料格式不一致，比如圖片有一部分unit8的灰度圖，但是你其實在製作RGB三通道的資料集，這樣圖片格式不一致就會報錯，具體原因可以看我其他部落格，有一個就是介紹可能引起來的各種方法。

在製作資料集之前，首先要檢查資料集的格式，檢視是否一致，圖片的格式主要有RGB,RGBA,L,P，

import os
import tensorflow as tf
from PIL import Image

cwd = r'/home/hehe/python/deeplearning/pan/'
num=0
for img_name in os.listdir(cwd):
    img_path = cwd + img_name
    img = Image.open(img_path)
    print(num,img_name ,img )

將輸出結果貼上到word裡面，然後查詢model=RGBA，找到所有非RGB的圖片刪除，這一步很關鍵，如果不刪除後面的資料集很可能就不能用。

如果你的資料夾和你的標籤對應得上，那麼使用這種方式也可以的

#下面的程式碼是為了生成list.txt ， 把不同資料夾下的圖片和 數字label對應起來
import os

path=r"/user/huanglong/jiao/"

output_path = 'list.txt'
fd = open(output_path, 'w')
cate = [path + x for x in os.listdir(path) if os.path.isdir(path + x)]
# os.path.splitext(DATA_URL.split("/")[-1])[0]
for index, folder in enumerate(cate):
    name=os.path.splitext(folder.split("/")[-1])[0]
    for im in os.listdir(folder):
        fd.write('{}/{} {}\n'.format(name, im, name))
fd.close()
print('finish task')

這樣的方法就不需要你剛剛那樣每次還需要修改，只需要更改檔案路徑就好了。

如何使用tf.data讀取tfrecords資料集

如何使用tf.data讀取tfrecords資料集2

如何使用tf.data讀取tfrecords資料集

tensorflow使用tf.keras.Mode寫模型並使用tf.data.Dataset作為資料輸入

Tensorflow-tf.data 如何構建資料通道

python讀取cifar10資料集

讀取mnist資料集顯示圖片資訊

使用 Java 讀取 MNIST 資料集

5cifar100資料集的讀取-5.1/5.2/5.3TensorFlow讀取Cifar100資料集(上/中/下)

法國INRIA Data Sets & Images 資料集和影象庫

C++ —— 讀取MNIST資料集資料並轉存為影象

讀取COCO資料集的關鍵點座標

用Tensorflow處理自己的資料：製作自己的TFRecords資料集

Matlab讀取UCI資料集Iris中資料

一起來用tf.data API！（2）——建立迭代器讀取資料

Tensorflow 資料讀取 tf.data.Dataset API 相關介紹

實踐目標檢測--讀取資料集

DL之RNN：基於TF利用RNN實現簡單的序列資料型別(DIY序列資料集)的二分類(線性序列&隨機序列)

Java生成-zipf分佈的資料集（自定義傾斜度，用作spark data skew測試）

pandas 讀取資料集

關於cifar-10資料集讀取問題

如何使用tf.data讀取tfrecords資料集

相關推薦