tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

阿新 • • 發佈：2020-01-21

在上一篇文章tensorflow入門：tfrecord 和tf.data.TFRecordDataset的使用裡，講到了使用如何使用tf.data.TFRecordDatase來對tfrecord檔案進行batch讀取，即使用dataset的batch方法進行；但如果每條資料的長度不一樣（常見於語音、視訊、NLP等領域），則不能直接用batch方法獲取資料，這時則有兩個解決辦法：

1.在把資料寫入tfrecord時，先把資料pad到統一的長度再寫入tfrecord；這個方法的問題在於：若是有大量資料的長度都遠遠小於最大長度，則會造成儲存空間的大量浪費。

2.使用dataset中的padded_batch方法來進行，引數padded_shapes #指明每條記錄中各成員要pad成的形狀，成員若是scalar，則用[]，若是list，則用[mx_length]，若是array，則用[d1,...,dn]，假如各成員的順序是scalar資料、list資料、array資料，則padded_shapes=([],[mx_length],[d1,dn])；該方法的函式說明如下：

padded_batch(
 batch_size,padded_shapes,padding_values=None #預設使用各型別資料的預設值，一般使用時可忽略該項
)

使用mnist資料來舉例說明，首先在把mnist寫入tfrecord之前，把mnist資料進行更改，以使得每個mnist影象的大小不等，如下：

import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
 
mnist = read_data_sets("MNIST_data/",one_hot=True)
 
 
def get_tfrecords_example(feature,label):
 tfrecords_features = {}
 feat_shape = feature.shape
 tfrecords_features['feature'] = tf.train.Feature(float_list=tf.train.FloatList(value=feature))
 tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape)))
 tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label))
 return tf.train.Example(features=tf.train.Features(feature=tfrecords_features))
 
 
def make_tfrecord(data,outf_nm='mnist-train'):
 feats,labels = data
 outf_nm += '.tfrecord'
 tfrecord_wrt = tf.python_io.TFRecordWriter(outf_nm)
 ndatas = len(labels)
 print(feats[0].dtype,feats[0].shape,ndatas)
 assert len(labels[0]) > 1
 for inx in range(ndatas):
 ed = random.randint(0,3) #隨機丟掉幾個資料點，以使長度不等
 exmp = get_tfrecords_example(feats[inx][:-ed],labels[inx])
 exmp_serial = exmp.SerializeToString()
 tfrecord_wrt.write(exmp_serial)
 tfrecord_wrt.close()
 
import random
nDatas = len(mnist.train.labels)
inx_lst = range(nDatas)
random.shuffle(inx_lst)
random.shuffle(inx_lst)
ntrains = int(0.85*nDatas)
 
# make training set
data = ([mnist.train.images[i] for i in inx_lst[:ntrains]],\
 [mnist.train.labels[i] for i in inx_lst[:ntrains]])
make_tfrecord(data,outf_nm='mnist-train')
 
# make validation set
data = ([mnist.train.images[i] for i in inx_lst[ntrains:]],\
 [mnist.train.labels[i] for i in inx_lst[ntrains:]])
make_tfrecord(data,outf_nm='mnist-val')
 
# make test set
data = (mnist.test.images,mnist.test.labels)
make_tfrecord(data,outf_nm='mnist-test')

用dataset載入批量資料，在解析資料時用到tf.VarLenFeature(tf.datatype)，而非tf.FixedLenFeature([],tf.datatype)}，且要配合tf.sparse_tensor_to_dense函式使用，如下：

import tensorflow as tf
 
train_f,val_f,test_f = ['mnist-%s.tfrecord'%i for i in ['train','val','test']]
 
def parse_exmp(serial_exmp):
 feats = tf.parse_single_example(serial_exmp,features={'feature':tf.VarLenFeature(tf.float32),\
 'label':tf.FixedLenFeature([10],tf.float32),'shape':tf.FixedLenFeature([],tf.int64)})
 image = tf.sparse_tensor_to_dense(feats['feature']) #使用VarLenFeature讀入的是一個sparse_tensor，用該函式進行轉換
 label = tf.reshape(feats['label'],[2,5]) #把label變成[2,5]，以說明array資料如何padding
 shape = tf.cast(feats['shape'],tf.int32)
 return image,label,shape
 
def get_dataset(fname):
 dataset = tf.data.TFRecordDataset(fname)
 return dataset.map(parse_exmp) # use padded_batch method if padding needed
 
epochs = 16
batch_size = 50 
padded_shapes = ([784],[3,5],[]) #把image pad至784，把label pad至[3,5]，shape是一個scalar，不輸入數字
# training dataset
dataset_train = get_dataset(train_f)
dataset_train = dataset_train.repeat(epochs).shuffle(1000).padded_batch(batch_size,padded_shapes=padded_shapes)

以上這篇tensorflow入門:TFRecordDataset變長資料的batch讀取詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

Pytorch DataLoader 變長資料處理方式

Pytorch中的dataloader以及處理變長資料

Redis快取和MySQL資料一致性方案詳解

Spring boot @RequestBody資料傳遞過程詳解

MySQL Limit效能優化及分頁資料效能優化詳解

MySQL如何更改資料庫資料儲存目錄詳解

SQL Server中T-SQL 資料型別轉換詳解

SQL的常用資料型別列表詳解

Oracle如何更改表空間的資料檔案位置詳解

MySQL操作之JSON資料型別操作詳解

SQLserver中cube：多維資料集例項詳解

django商品分類及商品資料建模例項詳解

python序列化與資料持久化例項詳解

Python大資料之從網頁上爬取資料的方法詳解

pandas 空資料處理方法詳解

python實現傳送form-data資料的方法詳解

springmvc處理模型資料ModelAndView過程詳解

對Tensorflow中tensorboard日誌的生成與顯示詳解

對Tensorflow中Device例項的生成和管理詳解

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

相關推薦