TensorFlow入門（十-I）tfrecord 固定維度資料讀寫

阿新 • • 發佈：2019-02-13

關於 tfrecord 的使用，分別介紹 tfrecord 進行三種不同型別資料的處理方法。
- 維度固定的 numpy 矩陣
- 可變長度的序列資料
- 圖片資料

在 tf1.3 及以後版本中，推出了新的 Dataset API，之前趕實驗還沒研究，可能以後都不太會用下面的方式寫了。這些程式碼都是之前寫好的，因為註釋中都寫得比較清楚了，所以直接上程式碼。

tfrecord_1_numpy_writer.py

# -*- coding:utf-8 -*- 

import tensorflow as tf
import numpy as np
from tqdm import 
 tqdm

'''tfrecord 寫入資料.
將固定shape的矩陣寫入 tfrecord 檔案。這種形式的資料寫入 tfrecord 是最簡單的。
refer: http://blog.csdn.net/qq_16949707/article/details/53483493
'''

# **1.建立檔案，可以建立多個檔案，在讀取的時候只需要提供所有檔名列表就行了
writer1 = tf.python_io.TFRecordWriter('../data/test1.tfrecord')
writer2 = tf.python_io.TFRecordWriter('../data/test2.tfrecord' 
)

"""
有一點需要注意的就是我們需要把矩陣轉為陣列形式才能寫入
就是需要經過下面的 reshape 操作
在讀取的時候再 reshape 回原始的 shape 就可以了
"""
X = np.arange(0, 100).reshape([50, -1]).astype(np.float32)
y = np.arange(50)

for i in tqdm(xrange(len(X))):  # **2.對於每個樣本
    if i >= len(y) / 2:
        writer = writer2
    else:
        writer = writer1
    X_sample = X[i].tolist()
    y_sample = y[i]
    # **3.定義資料型別，按照這裡固定的形式寫，有float_list(好像只有32位), int64_list, bytes_list. 

    example = tf.train.Example(
        features=tf.train.Features(
            feature={'X': tf.train.Feature(float_list=tf.train.FloatList(value=X_sample)),
                     'y': tf.train.Feature(int64_list=tf.train.Int64List(value=[y_sample]))}))
    # **4.序列化資料並寫入檔案中
    serialized = example.SerializeToString()
    writer.write(serialized)

print('Finished.')
writer1.close()
writer2.close()

tfrecord_1_numpy_reader.py

# -*- coding:utf-8 -*- 

import tensorflow as tf

'''read data
從 tfrecord 檔案中讀取資料，對應資料的格式為固定shape的資料。
'''

# **1.把所有的 tfrecord 檔名列表寫入佇列中
filename_queue = tf.train.string_input_producer(['../data/test1.tfrecord', '../data/test2.tfrecord'], num_epochs=None,
                                                shuffle=True)
# **2.建立一個讀取器
reader = tf.TFRecordReader()
_, serialized_example = reader.read(filename_queue)
# **3.根據你寫入的格式對應說明讀取的格式
features = tf.parse_single_example(serialized_example,
                                   features={
                                       'X': tf.FixedLenFeature([2], tf.float32),  # 注意如果不是標量，需要說明陣列長度
                                       'y': tf.FixedLenFeature([], tf.int64)}     # 而標量就不用說明
                                   )
X_out = features['X']
y_out = features['y']

print(X_out)
print(y_out)
# **4.通過 tf.train.shuffle_batch 或者 tf.train.batch 函式讀取資料
"""
在shuffle_batch 函式中，有幾個引數的作用如下：
capacity: 佇列的容量，容量越大的話，shuffle 得就更加均勻，但是佔用記憶體也會更多
num_threads: 讀取程序數，程序越多，讀取速度相對會快些，根據個人配置決定
min_after_dequeue: 保證佇列中最少的資料量。
   假設我們設定了佇列的容量C，在我們取走部分資料m以後，佇列中只剩下了 (C-m) 個數據。然後佇列會不斷補充資料進來，
   如果後勤供應（CPU效能,執行緒數量）補充速度慢的話，那麼下一次取資料的時候，可能才補充了一點點，如果補充完後的資料個數少於
   min_after_dequeue 的話，不能取走資料，得繼續等它補充超過 min_after_dequeue 個樣本以後才讓取走資料。
   這樣做保證了佇列中混著足夠多的資料，從而才能保證 shuffle 取值更加隨機。
   但是，min_after_dequeue 不能設定太大，否則補充時間很長，讀取速度會很慢。
"""
X_batch, y_batch = tf.train.shuffle_batch([X_out, y_out], batch_size=2,
                                          capacity=200, min_after_dequeue=100, num_threads=2)
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

# **5.啟動佇列進行資料讀取
# 下面的 coord 是個執行緒協調器，把啟動佇列的時候加上執行緒協調器。
# 這樣，在資料讀取完畢以後，呼叫協調器把執行緒全部都關了。
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(sess=sess, coord=coord)
y_outputs = list()
for i in xrange(5):
    _X_batch, _y_batch = sess.run([X_batch, y_batch])
    print('** batch %d' % i)
    print('_X_batch:', _X_batch)
    print('_y_batch:', _y_batch)
    y_outputs.extend(_y_batch.tolist())
print(y_outputs)

# **6.最後記得把佇列關掉
coord.request_stop()
coord.join(threads)

TensorFlow入門（十-I）tfrecord 固定維度資料讀寫

關於 tfrecord 的使用，分別介紹 tfrecord 進行三種不同型別資料的處理方法。 - 維度固定的 numpy 矩陣 - 可變長度的序列資料 - 圖片資料在 tf1.3 及以後版本中，推出了新的 Dataset API，之前趕實

TensorFlow入門（十-II）tfrecord 可變長度的序列資料

Storm入門（十一）Twitter Storm源代碼分析之CoordinatedBolt

WPF自學入門（十一）WPF MVVM模式Command命令

tps xaml 使用 company change 用戶通過命令 AC 聯系人在WPF自學入門（十）WPF MVVM簡單介紹中的示例似乎運行起來沒有什麽問題，也可以進行更新。但是這並不是我們使用MVVM的正確方式。正如上一篇文章中在開始說的，MVVM的

Java基礎入門（十一）之基本數據包裝類以及簡單轉換

數據包 intvalue nbsp 1.5 lse false 永遠 ring jdk 一、基本數據類型包裝類引用數據類型一般為基本數據類型首字母大寫，除了int 、char,其中int的引用數據類型類Integer,char的引用數據類型為Character 關

C語言入門（十九）之結構體

太晚了（11點半了），明天繼續結構體陣列: 是用於儲存一組相同型別的資料結構體: 是用於儲存一組不同型別的資料 // 1.定義結構體型別 struct Person { // char name[20]; char *name;

C語言入門（十八）之指標、字串、函式

如何利用指標運算元組 int ages[3] = {1, 3 , 5}; ages[0] = 998; printf("ages[0] = %i\n", ages[0]); int *p = ages; // int *p = &a

C語言入門（十七）之指標的基本概念

如何定義指標變數普通變數: 資料型別變數名稱; 指標變數: &nb

C語言入門（十六）之字串

字串的基本概念如何定義字串變數, 由於字串是同一種類型的資料組成, 並且是有序的。而陣列就是用於儲存很多同一種類型的有序資料, 所以可以使用陣列來儲存字串。注意: 字串變數和普通的字元陣列有一定的區別。 C語言規定, 字串必須以\0結尾(作為字串的結束符號), 所以

java多線程快速入門（十一）

lee read .get java多線 als pub syn this ble 在方法上面加synchonizd用的是this鎖 package com.cppdy; class MyThread7 implements Runnable { privat

java多執行緒快速入門（十一）

在方法上面加synchonizd用的是this鎖 package com.cppdy; class MyThread7 implements Runnable { private Integer ticketCount = 100; public boolean falg = tr

java多執行緒快速入門（十二）

在靜態方法上面加synchonizd用的是位元組碼檔案鎖 package com.cppdy; class MyThread8 implements Runnable { private static Integer ticketCount = 100; public boolea

java多執行緒快速入門（十六）

ThreadLocal關鍵字實現每個執行緒有自己的變數 package com.cppdy; class Number { private int num; public static ThreadLocal<Integer> threadLocal = new Th

java多執行緒快速入門（十八）

Lock鎖是JDK1.5之後推出的併發包裡面的關鍵字（注意捕獲異常，釋放鎖） Lock與synchronized的區別　　Lock鎖可以人為的釋放鎖（相當於汽車中的手動擋）　　synchronized當執行緒執行完畢或者丟擲異常的話，鎖自動釋放（相當於汽車中的自動擋） Condition用法　

java多線程快速入門（十八）

user static 的區別 con als sync ack pack exceptio Lock鎖是JDK1.5之後推出的並發包裏面的關鍵字（註意捕獲異常，釋放鎖） Lock與synchronized的區別　　Lock鎖可以人為的釋放鎖（相當於汽車中的手動擋）　　

Python入門（十二）異常處理

Python 異常處理 python提供了兩個非常重要的功能來處理python程式在執行中出現的異常和錯誤。你可以使用該功能來除錯python程式。異常處理: 本站Python教程會具體介紹。斷言(Assertions):本站Python教程會具體介紹。

Python入門（十一）File檔案方法

Python File(檔案) 方法 file 物件使用 open 函式來建立，下表列出了 file 物件常用的函式：序號方法描述 1 file.close() 關

遊戲開發入門（十二）遊戲開發全總結

通過遊戲開發入門系列的學習，是不是對遊戲開發有了一個比較清晰的認識？在最後一篇裡面，博主試著概括性的對遊戲開發做一個總結，歡迎各位提出意見來完善這篇部落格~ 遊戲模組總結：遊戲邏輯模組系統：各種武器，狀態，技能，揹包，戰鬥等邏輯系統動畫模組系

遊戲開發入門（十一）遊戲引擎架構

該堂課是對遊戲引擎內容的一個概括總結，同時也是對遊戲開發技術的一個相當全面的總結。正如我在開篇所提到的，遊戲引擎架構的學習有助於我們建立一個對遊戲全域性性的認識。筆記與總結（請先學習視訊

Vue入門（十一）---- mixins

混入 (mixins) 是一種分發 Vue 元件中可複用功能的非常靈活的方式。混入物件可以包含任意元件選項。當元件使用混入物件時，所有混入物件的選項將被混入該元件本身的選項。 main.js

TensorFlow入門（十-I）tfrecord 固定維度資料讀寫

相關推薦