Tensorflow分批量讀取資料教程
之前的部落格裡使用tf讀取資料都是每次fetch一條記錄,實際上大部分時候需要fetch到一個batch的小批量資料,在tf中這一操作的明顯變化就是tensor的rank發生了變化,我目前使用的人臉資料集是灰度影象,因此大小是92*112的,所以最開始fetch拿到的影象資料集經過reshape之後就是一個rank為2的tensor,大小是92*112的(如果考慮通道,也可以reshape為rank為3的,即92*112*1)。如果加入batch,比如batch大小為5,那麼拿到的tensor的rank就變成了3,大小為5*92*112。
下面規則化的寫一下讀取資料的一般流程,按照官網的例項,一般把讀取資料拆分成兩個大部分,一個是函式專門負責讀取資料和解碼資料,一個函式則負責生產batch。
import tensorflow as tf def read_data(fileNameQue): reader = tf.TFRecordReader() key,value = reader.read(fileNameQue) features = tf.parse_single_example(value,features={'label': tf.FixedLenFeature([],tf.int64),'img': tf.FixedLenFeature([],tf.string),}) img = tf.decode_raw(features["img"],tf.uint8) img = tf.reshape(img,[92,112]) # 恢復影象原始大小 label = tf.cast(features["label"],tf.int32) return img,label def batch_input(filename,batchSize): fileNameQue = tf.train.string_input_producer([filename],shuffle=True) img,label = read_data(fileNameQue) # fetch影象和label min_after_dequeue = 1000 capacity = min_after_dequeue+3*batchSize # 預取影象和label並隨機打亂,組成batch,此時tensor rank發生了變化,多了一個batch大小的維度 exampleBatch,labelBatch = tf.train.shuffle_batch([img,label],batch_size=batchSize,capacity=capacity,min_after_dequeue=min_after_dequeue) return exampleBatch,labelBatch if __name__ == "__main__": init = tf.initialize_all_variables() exampleBatch,labelBatch = batch_input("./data/faceTF.tfrecords",batchSize=10) with tf.Session() as sess: sess.run(init) coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) for i in range(100): example,label = sess.run([exampleBatch,labelBatch]) print(example.shape) coord.request_stop() coord.join(threads)
讀取資料和解碼資料與之前基本相同,針對不同格式資料集使用不同閱讀器和解碼器即可,後面是產生batch,核心是tf.train.shuffle_batch這個函式,它相當於一個蓄水池的功能,第一個引數代表蓄水池的入水口,也就是逐個讀取到的記錄,batch_size自然就是batch的大小了,capacity是蓄水池的容量,表示能容納多少個樣本,min_after_dequeue是指出隊操作後還可以供隨機取樣出批量資料的樣本池大小,顯然,capacity要大於min_after_dequeue,官網推薦:min_after_dequeue + (num_threads + a small safety margin) * batch_size,還有一個引數就是num_threads,表示所用執行緒數目。
min_after_dequeue這個值越大,隨機取樣的效果越好,但是消耗的記憶體也越大。
以上這篇Tensorflow分批量讀取資料教程就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。