Tensorflow 資料讀取 tf.data.Dataset API 相關介紹

阿新 • • 發佈：2019-02-17

介紹

tf.1.4及以後新出的tf.data.Dataset API 中，使用的資料讀取方式有點類似於pytorch中的Dataloader，大大簡化了資料讀取。下面是程式碼例項。

# coding=utf-8
import os
import numpy as np
import glob

import tensorflow as tf
import tensorflow.contrib.eager as tfe

"""資料讀取: Dataset API的介紹"""
"""
1. Dataset API 支援tensorflow新出的Eager模式
            Eager模式：迭代時可直接取值，而不是tensor。但在tf 1.4的標準版中，沒有eager模式，而是在nightly version
2. 通過Dataset類可以例項化出一個Iterator
3. Dataset 可以看成是相同型別元素的有序列表。這裡的元素可以是向量，字串，圖片，或者tuple,dict等
4. 從Dataset中取出元素：
            需要例項化一個Interator,然後對Iterator進行迭代
5. Dataset支援一類特殊的操作: Transformation. 一個Dataset通過Transformation變成一個新的Dataset。
    我們可以通過Transformation完成 資料變換， 打亂， 組成batch， 生成epoch 等操作
    常用的Transformation：
                (1) map
                (2) batch
                (3) shuffle
                (4) repeat
6. dataset的建立方法：
    (1) tf.data.Dataset.from_tensor_slices
    (2) tf.data.TextLineDataset(): 輸入是一個檔案列表，輸出是一個dataset。dataset中的每一個元素就對應了檔案中的一行。
                                    可以用這個函式來讀取csv檔案
    (3) tf.data.FixedLengthRecordDataset(): 通常用來讀取以二進位制形式儲存的檔案,如CIFAR10資料集
    (4) tf.data.TFRecordDataset(): 用來讀取tfrecord檔案，dataset中的每一個元素就是一個TFExample
"""


def eager_dataset():
    """
    以eager模式讀取資料集
    :return: 
    """
    dataset = tf.data.Dataset.from_tensor_slices(np.array([1.0, 2.0, 3.0, 4.0, 5.0]))
    iterator = tfe.Iterator(dataset)
    for one_element in iterator:
        print(one_element)


def non_eager_dataset():
    """
    以非eager的方式讀取資料集
    :return: 
    """
    # from_tensor_slices: 切分傳入Tensor的第一個維度，生成相應的dataset
    dataset = tf.data.Dataset.from_tensor_slices(np.array([1.0, 2.0, 3.0, 4.0, 5.0]))

    """非eager模式"""
    # 建立一個iterator,且是一個one shot iterator,即只能從頭到尾讀取一次
    iterator = dataset.make_one_shot_iterator()
    # 非Eager模式：one_element是一個tensor，而不是個實際的值
    one_element = iterator.get_next()

    # with tf.Session() as sess:
    #     for i in range(5):
    #         # 如果一個dataset中的元素被讀取完了，再嘗試執行sess.run(one_element)，會報tf.errors.OutOfRangeError的異常
    #         print(sess.run(one_element))

    with tf.Session() as sess:
        try:
            while True:
                print(sess.run(one_element))
        except tf.errors.OutOfRangeError:
            print('End')


def non_eager_dataset_v2():
    dataset = tf.data.Dataset.from_tensor_slices(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))
    iterator = dataset.make_one_shot_iterator()
    one_element = iterator.get_next()

    with tf.Session() as sess:
        try:
            while True:
                print(sess.run(one_element))
        except tf.errors.OutOfRangeError:
            print('End')


def non_eager_dataset_dict_classical():
    """
    經典的影象處理類問題中，image 和 label 的組織形式: 
                    {'image': image_tensor, 'label': label_tensor}
    :return: 
    """
    # from_tensor_slices 會分別切分'a','b'中的數值，最終dataset中的一個元素類似於{'a': 1.0, 'b': dog}的形式
    dataset = tf.data.Dataset.from_tensor_slices(
        {'a': np.array([1.0, 2.0, 3.0, 4.0, 5.0]), 'b': ['dog', 'cat', 'pig', 'monkey', 'bear']})
    iterator = dataset.make_one_shot_iterator()
    one_element = iterator.get_next()
    with tf.Session() as sess:
        try:
            while True:
                print(sess.run(one_element))
        except tf.errors.OutOfRangeError:
            print('End')


"""Transformation 相關操作"""
def map_fun():
    dataset = tf.data.Dataset.from_tensor_slices(np.array([1.0, 2.0, 3.0, 4.0, 5.0]))
    dataset = dataset.map(lambda x: x + 1)
    iterator = dataset.make_one_shot_iterator()
    one_element = iterator.get_next()

    with tf.Session() as sess:
        try:
            while True:
                print(sess.run(one_element))
        except tf.errors.OutOfRangeError:
            print('End')


def batch_fun():
    dataset = tf.data.Dataset.from_tensor_slices(np.array(range(32)))
    # 注： batch 也支援不整除的操作
    dataset = dataset.batch(5)
    dataset = dataset.shuffle(1000)
    iterator = dataset.make_one_shot_iterator()
    one_element = iterator.get_next()
    cnt = 0
    with tf.Session() as sess:
        try:
            while True:
                print('batch: {}, {}'.format(cnt, sess.run(one_element)))
                cnt += 1
        except tf.errors.OutOfRangeError:
            print('End')


def repeat_fun():
    dataset = tf.data.Dataset.from_tensor_slices(np.array(range(10)))
    dataset = dataset.shuffle(1000)
    # repeat 的功能就是將整個資料集重複多次，主要用來處理機器學習中的epoch.
    dataset = dataset.repeat(3)
    iterator = dataset.make_one_shot_iterator()
    one_element = iterator.get_next()
    with tf.Session() as sess:
        try:
            while True:
                print(sess.run(one_element))
        except tf.errors.OutOfRangeError:
            print('End')


"""一個經典的讀取image和label的列子"""
def parse_function(filename, label):
    image_string = tf.read_file(filename)
    # image_decoded = tf.image.decode_image(image_string, channels=3)
    image_decoded = tf.image.decode_jpeg(image_string)
    image_resized = tf.image.resize_images(image_decoded, size=(100, 100))

    return image_resized, label


def dataset_classical_example():
    batch_size = 4

    filenames_tmp = glob.glob(os.path.join('./data_samples', '*.{}'.format('jpg')))
    filenames = tf.constant(filenames_tmp)
    labels = tf.constant(range(len(filenames_tmp)))

    dataset = tf.data.Dataset.from_tensor_slices((filenames, labels))
    dataset = dataset.map(parse_function)
    dataset = dataset.shuffle(buffer_size=1000).batch(batch_size).repeat(3)

    iterator = dataset.make_one_shot_iterator()
    one_batch = iterator.get_next()

    with tf.Session() as sess:
        try:
            while True:
                batch_images, batch_labels = sess.run(one_batch)
        except tf.errors.OutOfRangeError:
            print('End')


if __name__ == '__main__':
    # non_eager_dataset_dict_classical()
    # map_fun()
    # batch_fun()

    # repeat_fun()
    dataset_classical_example()

參考連結：

Tensorflow 資料讀取 tf.data.Dataset API 相關介紹

介紹tf.1.4及以後新出的tf.data.Dataset API 中，使用的資料讀取方式有點類似於pytorch中的Dataloader，大大簡化了資料讀取。下面是程式碼例項。# coding=utf-8 import os import numpy as np impor

TensorFlow全新的資料讀取方式：Dataset API入門教程

Dataset API是TensorFlow 1.3版本中引入的一個新的模組，主要服務於資料讀取，構建輸入資料的pipeline。此前，在TensorFlow中讀取資料一般有兩種方法：使用placeholder讀記憶體中的資料使用queue讀硬碟中的資料（關於這種

tensorflow使用tf.keras.Mode寫模型並使用tf.data.Dataset作為資料輸入

單輸入,單輸出的model使用tf.data.Dataset作為資料輸入很方便,定義好資料的input和對應的label,組成一個tf.data.Dataset型別的變數,直接傳入由tf.keras.Model構成的模型進行model.fit即可,例如: a = tf.keras.l

tf.data.Dataset的一些小坑

我們使用資料的時候都是用batch來做輸入,使用tf.data.Dataset的時候,一般會這樣寫: dataset = dataset.batch(batch_size).repeat(epochs) 用來說明我們需要對整個資料集進行多少個epochs,每次的輸入大小是多少個

tf.data.Dataset影象預處理詳解

目錄 1、tf.data.Dataset 2、Dataset常用函式 3、影象預處理的第一種方式 3.1、匯入依賴庫 3.2、定義常量 3.3、讀取文字中的圖片標籤對 3.4、例項化Dataset並完成影象預處理

TensorFlow 資料讀取方法總結

作者：黑暗星球原文地址：https://blog.csdn.net/u014061630/article/details/80712635 ====================下一篇：tf.data 官方教程==================== ==============

Tensorflow資料讀取機制及tfrecords高效讀取資料

1. tensorflow 的資料讀取機制以影象資料為例，資料讀取過程如下所示：假設我們的硬碟中有一個圖片資料集0001.jpg，0002.jpg，0003.jpg……我們只需要把它們讀取到記憶體中，然後提供給GPU或是CPU進行計算就

tensorflow資料讀取和處理

檔案匹配 ["file0", "file1"]或[("file%d" % i) for i in range(2)] files = tf.train.match_filenames_once("C:/path/to/data.tfrecords-*") 讀取

Tensorflow資料讀取方式總結

1、使用placeholder讀記憶體中的資料最簡單的一種方法是用placeholder，然後以feed_dict將資料給holder的變數，進行傳遞值。如下面程式碼所示： from __future__ import print_function i

tensorflow資料讀取之tfrecords

掌握一個深度學習框架的用法，從訓練一個模型的流程來看，需要掌握以下幾個步驟： 1. 資料的處理，包括訓練資料轉成網路的輸入，模型引數的儲存與讀取 2. 網路結構的定義，包括網路主體的搭建以及loss的定義 3. solver的定義，也就是如何對網路進行優化

TensorFlow資料讀取模組呼叫過程（cifar10）

最近在看TensorFlow資料讀取模組，有了一點思路，先把讀取部分的呼叫過程寫下來，以cifar10為例。入口 cifar10_train.py distorted_inputs() 函式執行資料讀取 def train(): with tf.Graph().a

tf.data.Dataset.from_tensor_slices( )

我們在轉化資料集時經常會使用這個函式，他的所用是切分傳入的 Tensor 的第一個維度，生成相應的 dataset 。 1.對傳入的（5,2）進行切分，最終產生的dataset有5個元素，每個元素的形狀都是（2，） 2.在影象識別中可能出現的字典或者元組的矩陣情況，因

tensorflow 1.0 學習：十圖詳解tensorflow資料讀取機制

本文轉自：https://zhuanlan.zhihu.com/p/27238630 在學習tensorflow的過程中，有很多小夥伴反映讀取資料這一塊很難理解。確實這一塊官方的教程比較簡略，網上也找不到什麼合適的學習材料。今天這篇文章就以圖片的形式，用最簡單的語言，為大家詳細解釋一下tensorflow的

TensorFlow資料讀取方法

轉自：http://honggang.io/2016/08/19/tensorflow-data-reading/ 引言 Tensorflow的資料讀取有三種方式： Preloaded data: 預載入資料Feeding: Python產生資料，再把資料餵給後端

tensorflow入門學習(2)——tensorflow資料讀取&多執行緒

一、供給資料 TensorFlow的資料供給機制允許你在TensorFlow運算圖中將資料注入到任一張量中。因此，python運算可以把資料直接設定到TensorFlow圖中。通過給run()或者eval()函式輸入feed_dict引數，可以啟動運算過

一起來用tf.data API！（2）——建立迭代器讀取資料

（一）前言在第一節中我們介紹了tf.data API的元件結構，我們使用Database方法來建立資料集，然後使用Iterator來讀取資料集中的元素，本節我們就來介紹如何用Iterator方法

Tensorflow-tf.data 如何構建資料通道

Tensorflow.data 在訓練的時候多次迭代，如果每次獲取輸入資料都通過磁碟讀入原始圖片（文字），這將會導致做很多無用功。方法之一便是先將資料預處理好，然後將整個資料集中保到易讀入的記憶體中或者本地磁碟，訓練的時候就不用每次都要處理圖片資料了。很明顯Tensorflow便有這種介

TensorFlow走過的坑之---資料讀取和tf中batch的使用方法

首先介紹資料讀取問題，現在TensorFlow官方推薦的資料讀取方法是使用tf.data.Dataset，具體的細節不在這裡贅述，看官方文件更清楚，這裡主要記錄一下官方文件沒有提到的坑，以示"後人"。因為是記錄踩過的坑，所以行文混亂，見諒。 I 問題背景不感興趣的可跳過此節。最近在研究ENAS的程式

tensorflow-讀寫資料tf.data(1)

模組:tf.data定義在tensorflow/_api/v1/data/init.py輸入管道的tf.data.Dataset API 模組實驗模組:構建輸入管道的實驗API。類class Dataset:可能是大型的元素集。class FixedLengthRecordDataset: 來自一個或多個二進

tensorflow-讀寫資料tf.data(2)

從簡單的、可重用的部分構建複雜的輸入管道。例如，影象模型的管道可以聚合分散式檔案系統中檔案中的資料，對每個影象應用隨機擾動，並將隨機選擇的影象合併成一批進行訓練。文字模型的管道可能包括從原始文字資料中提取符號，將它們轉換為嵌入查詢表的識別符號，以及將不同長度的序列批處理在一起。 tf.data API使

Tensorflow 資料讀取 tf.data.Dataset API 相關介紹

介紹

參考連結：

相關推薦