1. 程式人生 > 程式設計 >TFRecord檔案檢視包含的所有Features程式碼

TFRecord檔案檢視包含的所有Features程式碼

TFRecord作為tensorflow中廣泛使用的資料格式,它跨平臺,省空間,效率高。因為 Tensorflow開發者眾多,統一訓練時資料的檔案格式是一件很有意義的事情,也有助於降低學習成本和遷移成本。

但是TFRecord資料是二進位制格式,沒法直接檢視。因此,如何能夠方便的檢視TFRecord格式和資料,就顯得尤為重要了。

為什麼需要檢視TFReocrd資料?首先我們先看下常規的寫入和讀取TFRecord資料的關鍵過程。

# 1. 寫入過程
# 一張圖片,我寫入了其內容,label,長和寬幾個資訊
tf_example = tf.train.Example(
    features=tf.train.Features(feature={
      'encoded': bytes_feature(encoded_jpg),'label': int64_feature(label),'height': int64_feature(height),'width': int64_feature(width)}))
# 2. 讀取過程
# 定義解析的TFRecord資料格式
def _parse_image(example_proto):
   features = {'encoded':tf.FixedLenFeature((),tf.string),'label': tf.FixedLenFeature((),tf.int64),'height': tf.FixedLenFeature((),'width': tf.FixedLenFeature((),tf.int64)
}
return tf.parse_single_example(example_proto,features)
 
# TFRecord資料按照Feature解析出對應的真實資料
ds = ds.map(lambda x : _parse_image(x),num_parallel_calls=4)

上面是一個標準的TFRecord資料的寫入和讀取部分過程,大家應該發現了,讀取TFRecord資料的時候,得知道TFRecord資料儲存的屬性名和型別,任何一項不匹配,都會導致無法獲取資料。

如果資料的寫入和讀取都是自己一個人完成,那就沒問題。但是如果寫入和讀取是跨團隊合作時候,如果每次讀取資料都得讓對方給完整的屬性名和屬性型別,那效率就太低了。畢竟TFRecord資料已經包含了一切,自己動手豐衣足食。

那麼怎麼檢視TFRecord資料呢?使用python tf.train.Example.FromString(serialized_example)方法,方法的入參是TFRecord包含的資料字串。

然後,我直接將上訴檢視的過程寫成了一個py指令碼,需要自取。

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
import sys
import tensorflow as tf
 
# 用法:python trackTFRecord.py True file1 file2 
# trackTFRecord.py 就是當前這個py檔案
# True 表示是否輸出具體的資料
# file1 file2 表示的是需要檢視的TFRecord檔案的絕對路徑
# 輸出說明:tf.float32對應TFRecord的FloatList,tf.int64對應Int64List,tf.string對應BytesList
def main():
  print('TFRecord檔案個數為{0}個'.format(len(sys.argv)-2))
  for i in range(2,len(sys.argv)):
    filepath = sys.argv[i]
    with tf.Session() as sess:
      filenames = [filepath]
      # 載入TFRecord資料
      ds = tf.data.TFRecordDataset(filenames)
      ds = ds.batch(10)
      ds = ds.prefetch(buffer_size=tf.contrib.data.AUTOTUNE)
      iterator = ds.make_one_shot_iterator()
      # 為了加快速度,僅僅簡單拿一組資料看下結構
      batch_data = iterator.get_next()
      res = sess.run(batch_data)
      serialized_example = res[0]
      example_proto = tf.train.Example.FromString(serialized_example)
      features = example_proto.features
      print('{0} 資訊如下:'.format(filepath))
      for key in features.feature:
        feature = features.feature[key]
        ftype = None
        fvalue = None
        if len(feature.bytes_list.value) > 0:
          ftype = 'bytes_list'
          fvalue = feature.bytes_list.value
          
        if len(feature.float_list.value) > 0:
          ftype = 'float_list'
          fvalue = feature.float_list.value
          
        if len(feature.int64_list.value) > 0:
          ftype = 'int64_list'
          fvalue = feature.int64_list.value
        
        result = '{0} : {1}'.format(key,ftype)
        if 'True' == sys.argv[1]:
          result = '{0} : {1}'.format(result,fvalue)
        print(result) 
 
if __name__ == "__main__":
  main()

下面給大家例項演示,首先先隨便找個圖片,寫入到TFRecord資料

import tensorflow as tf
 
filename = "/Users/zhanhaitao/Desktop/1.png"
# 使用tf.read_file讀進圖片資料
image = tf.read_file(filename)
# 主要是為了獲取圖片的寬高
image_jpeg = tf.image.decode_jpeg(image,channels=3,name="decode_jpeg_picture")
# reshape圖片到原始大小2500x2000x3
image_jpeg = tf.reshape(image_jpeg,shape=(2500,2000,3))
# 獲取圖片shape資料
img_shape = image_jpeg.shape
width = img_shape[0]
height = img_shape[1]
# 將原圖片tensor生成bytes物件, image將儲存到tfrecord
sess = tf.Session()
image = sess.run(image)
sess.close()
# 定義TFRecords檔案的儲存路徑及其檔名
path_none = "/Users/zhanhaitao/Desktop/a.tfrecord"
# 定義不同壓縮選項的TFRecordWriter
writer_none = tf.python_io.TFRecordWriter(path_none,options=None)
# 將外層features生成特定格式的example
example_none = tf.train.Example(features=tf.train.Features(feature={
"float_val":tf.train.Feature(float_list=tf.train.FloatList(value=[9.99])),"width":tf.train.Feature(int64_list=tf.train.Int64List(value=[width])),"height":tf.train.Feature(int64_list=tf.train.Int64List(value=[height])),"image_raw":tf.train.Feature(bytes_list=tf.train.BytesList(value=[image]))
}))
# example系列化字串
example_str_none = example_none.SerializeToString()
# 將系列化字串寫入協議緩衝區
writer_none.write(example_str_none)
 
# 關閉TFRecords檔案操作介面
writer_none.close()
 
print("finish to write data to tfrecord file!")

然後,使用上面的指令碼看下這個TFRecord資料定義了哪些屬性,以及對應的格式,先進入到指令碼的目錄下,因為影象資料內容太大,影響閱讀,就只看屬性名和type了:

python trackTFRecord.py False /Users/zhanhaitao/Desktop/a.tfrecord
# 結果,其中bytes_list對應tf.string,int64_list對應tf.int64 float_list對應tf.float32
# image_raw : bytes_list
# width : int64_list
# float_val : float_list
# height : int64_list

以上這篇TFRecord檔案檢視包含的所有Features程式碼就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。