Tensorflow分批量讀取資料教程

阿新 • • 發佈：2020-02-08

之前的部落格裡使用tf讀取資料都是每次fetch一條記錄，實際上大部分時候需要fetch到一個batch的小批量資料，在tf中這一操作的明顯變化就是tensor的rank發生了變化，我目前使用的人臉資料集是灰度影象，因此大小是92*112的，所以最開始fetch拿到的影象資料集經過reshape之後就是一個rank為2的tensor，大小是92*112的（如果考慮通道，也可以reshape為rank為3的，即92*112*1）。如果加入batch，比如batch大小為5，那麼拿到的tensor的rank就變成了3，大小為5*92*112。

下面規則化的寫一下讀取資料的一般流程，按照官網的例項，一般把讀取資料拆分成兩個大部分，一個是函式專門負責讀取資料和解碼資料，一個函式則負責生產batch。

import tensorflow as tf

def read_data(fileNameQue):

  reader = tf.TFRecordReader()
  key,value = reader.read(fileNameQue)
  features = tf.parse_single_example(value,features={'label': tf.FixedLenFeature([],tf.int64),'img': tf.FixedLenFeature([],tf.string),})
  img = tf.decode_raw(features["img"],tf.uint8)
  img = tf.reshape(img,[92,112]) # 恢復影象原始大小
  label = tf.cast(features["label"],tf.int32)

  return img,label

def batch_input(filename,batchSize):

  fileNameQue = tf.train.string_input_producer([filename],shuffle=True)
  img,label = read_data(fileNameQue) # fetch影象和label
  min_after_dequeue = 1000
  capacity = min_after_dequeue+3*batchSize
  # 預取影象和label並隨機打亂，組成batch，此時tensor rank發生了變化，多了一個batch大小的維度
  exampleBatch,labelBatch = tf.train.shuffle_batch([img,label],batch_size=batchSize,capacity=capacity,min_after_dequeue=min_after_dequeue)
  return exampleBatch,labelBatch

if __name__ == "__main__":

  init = tf.initialize_all_variables()
  exampleBatch,labelBatch = batch_input("./data/faceTF.tfrecords",batchSize=10)

  with tf.Session() as sess:

    sess.run(init)
    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord=coord)

    for i in range(100):
      example,label = sess.run([exampleBatch,labelBatch])
      print(example.shape)

    coord.request_stop()
    coord.join(threads)

讀取資料和解碼資料與之前基本相同，針對不同格式資料集使用不同閱讀器和解碼器即可，後面是產生batch，核心是tf.train.shuffle_batch這個函式，它相當於一個蓄水池的功能，第一個引數代表蓄水池的入水口，也就是逐個讀取到的記錄，batch_size自然就是batch的大小了，capacity是蓄水池的容量，表示能容納多少個樣本，min_after_dequeue是指出隊操作後還可以供隨機取樣出批量資料的樣本池大小，顯然，capacity要大於min_after_dequeue，官網推薦：min_after_dequeue + (num_threads + a small safety margin) * batch_size,還有一個引數就是num_threads，表示所用執行緒數目。

min_after_dequeue這個值越大，隨機取樣的效果越好，但是消耗的記憶體也越大。

以上這篇Tensorflow分批量讀取資料教程就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Tensorflow分批量讀取資料教程

Tensorflow分批量讀取資料教程

Tensorflow 實現分批量讀取資料

Tensorflow中批量讀取資料的案列分析及TFRecord檔案的打包與讀取

tensorflow如何批量讀取圖片

【深入理解TcaplusDB技術】批量讀取資料示例程式碼——[Generic表]

tensorflow tf.train.batch之資料批量讀取方式

淺談tensorflow中Dataset圖片的批量讀取及維度的操作詳解

tensorflow使用range_input_producer多執行緒讀取資料例項

利用Tensorflow的佇列多執行緒讀取資料方式

TensorFlow實現從txt檔案讀取資料

tensorflow實現二維平面模擬三維資料教程

Tensorflow踩坑系列---資料讀取檔案佇列

批量讀取多個資料夾下的檔名，儲存為txt

【Tensorflow】tensorflow和keras+讀取官方版本的MNIST資料集

使用Tensorflow object detection API訓練自己的資料教程

mybatis 操作 mysql 大批量插入,資料分頁處理

11_08、批量插入資料和分頁

tensorflow讀取資料-tfrecord格式

批量插入資料的優化，試試直接Append出SQL？

JDBC連線MySQL資料庫批量插入資料過程詳解

Tensorflow分批量讀取資料教程

相關推薦