TensorFlow 組合訓練資料（batching）

阿新 • • 發佈：2019-01-17

在之前的文章中我們提到了TensorFlow TensorFlow 佇列與多執行緒的應用以及TensorFlow TFRecord資料集的生成與顯示，通過這些操作我們可以得到自己的TFRecord檔案，並從其中解析出單個的Image和Label作為訓練資料提供給網路模型使用，而在實際的網路訓練過程中，往往不是使用單個數據提供給模型訓練，而是使用一個數據集（mini-batch），mini-batch中的資料個數稱為batch-size。mini-batch的思想能夠有效的提高模型預測的準確率。大部分的內容和之前的操作是相同的，資料佇列中存放的還是單個的資料和標籤，只是在最後的部分將出隊的資料組合成為batch使用，下面給出從原始資料到batch的整個流程：
這裡寫圖片描述

可以看到，截止到生成單個數據佇列操作，和之前並沒有什麼區別，關鍵之處在於最後batch的組合，一般來說單個數據佇列的長度（capacity）和batch_size有關：
capacity = min_dequeue+3*batch_size
我是這樣理解第二個佇列的：入隊的資料就是解析出來的單個的資料，而出隊的資料組合成了batch，一般來說入隊資料和出隊陣列應該是相同的，但是在第二個佇列中不是這樣。

那麼在TensorFlow中如何實現資料的組合呢，其實就是一個函式：
tf.train.batch
或者
tf.train.shuffle_batch
這兩個函式都會生成一個佇列，入隊的資料是單個的Image和Label，而出隊的是一個batch，也已稱之為一個樣例（example）。他們唯一的區別是是否將資料順序打亂。

本文以tf.train.batch為例，定義如下：

def batch(
tensors, //張量
batch_size, //個數
num_threads=1, //執行緒數
capacity=32,//佇列長度
enqueue_many=False, 
shapes=None, 
dynamic_pad=False,
allow_smaller_final_batch=False, 
shared_name=None, 
name=None):

下面寫一個程式碼測試一下，工程目錄下有一個TFRecord資料集檔案，該程式碼主要做以下工作，從TFRecord中讀取單個數據，每四個資料組成一個batch，一共生成10個batch，將40張圖片寫入指定路徑下，命名規則為batch?size?Label?，batch和size決定了是第幾個組合中的第幾個圖，label決定資料的標籤。

import os 
import tensorflow as tf 
from PIL import Image  
import matplotlib.pyplot as plt 
import numpy as np

#路徑
swd = 'F:\\testdata\\show\\'
filename_queue = tf.train.string_input_producer(["mydata.tfrecords"]) #讀入流中
reader = tf.TFRecordReader()
_, serialized_example = reader.read(filename_queue)   #返回檔名和檔案
features = tf.parse_single_example(serialized_example,
                                   features={
                                       'label': tf.FixedLenFeature([], tf.int64),
                                       'img_raw' : tf.FixedLenFeature([], tf.string),
                                   })  #取出包含image和label的feature物件
image = tf.decode_raw(features['img_raw'], tf.uint8)
image = tf.reshape(image, [36,136,3])
label = tf.cast(features['label'], tf.int32)

#組合batch
batch_size = 4
mini_after_dequeue = 100
capacity = mini_after_dequeue+3*batch_size

example_batch,label_batch = tf.train.batch([image,label],batch_size = batch_size,capacity=capacity)

with tf.Session() as sess: #開始一個會話
    init_op = tf.initialize_all_variables()
    sess.run(init_op)
    coord=tf.train.Coordinator()
    threads= tf.train.start_queue_runners(sess = sess,coord=coord)
    for i in range(10):#10個batch
        example, l = sess.run([example_batch,label_batch])#取出一個batch
        for j in range(batch_size):#每個batch內4張圖
            sigle_image = Image.fromarray(example[j], 'RGB')
            sigle_label = l[j]
            sigle_image.save(swd+'batch_'+str(i)+'_'+'size'+str(j)+'_'+'Label_'+str(sigle_label)+'.jpg')#存下圖片
            print(example, l)

    coord.request_stop()
    coord.join(threads)

這裡寫圖片描述

TensorFlow 組合訓練資料（batching）

TensorFlow 組合訓練資料（batching）

tensorflow學習筆記——使用TensorFlow操作MNIST資料（2）

使用Tensorflow來讀取訓練自己的資料（三）

使用Tensorflow來讀取訓練自己的資料（二）

使用Tensorflow來讀取訓練自己的資料（一）

TensorFlow——訓練自己的資料（五）模型評估

TensorFlow——訓練自己的資料（三）模型訓練

Tensorflow + ResNet101 + fasterRcnn 訓練自己的模型資料（一）

TensorFlow——訓練自己的資料（四）模型測試

利用tensorflow訓練自己的圖片資料（5）——測試訓練網路

利用tensorflow訓練自己的圖片資料（3）——建立網路模型

TensorFlow 訓練 MNIST 資料（二）

TensorFlow 訓練 MNIST （1）—— softmax 單層神經網絡

caffe模型訓練全過程（一）指令碼、資料準備與製作

TensorFlow 訓練 MNIST （1）—— softmax 單層神經網路

TensorFlow 訓練 MNIST （2）—— 多層神經網路

Tensorflow學習之路（一）：從MNIST資料集開始

TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類

Tensorflow：Android呼叫Tensorflow Mobile版本API（1）-訓練一個網路

FCN語義分割訓練資料（以siftflow和voc2012資料集為例）

TensorFlow 組合訓練資料（batching）

相關推薦