使用tensorflow DataSet實現高效載入變長文字輸入

阿新 • • 發佈：2020-01-21

DataSet是tensorflow 1.3版本推出的一個high-level的api，在1.3版本還只是處於測試階段，1.4版本已經正式推出。

在網上搜了一遍，發現關於使用DataSet載入文字的資料比較少，官方舉的例子只是csv格式的，要求csv檔案中所有樣本必須具有相同的維度，也就是padding必須在寫入csv檔案之前做掉，這會增加檔案的大小。

經過一番折騰試驗，這裡給出一個DataSet+TFRecords載入變長樣本的範例。

首先先把變長的資料寫入到TFRecords檔案：

def writedata():
 xlist = [[1,2,3],[4,5,6,8]]
 ylist = [1,2]
 #這裡的資料只是舉個例子來說明樣本的文字長度不一樣，第一個樣本3個詞標籤1，第二個樣本4個詞標籤2
 writer = tf.python_io.TFRecordWriter("train.tfrecords")
 for i in range(2):
  x = xlist[i]
  y = ylist[i]
  example = tf.train.Example(features=tf.train.Features(feature={
   "y": tf.train.Feature(int64_list=tf.train.Int64List(value=[y])),'x': tf.train.Feature(int64_list=tf.train.Int64List(value=x))
  }))
  writer.write(example.SerializeToString())
 writer.close()

然後用DataSet載入：

feature_names = ['x']
 
def my_input_fn(file_path,perform_shuffle=False,repeat_count=1):
 def parse(example_proto):
  features = {"x": tf.VarLenFeature(tf.int64),"y": tf.FixedLenFeature([1],tf.int64)}
  parsed_features = tf.parse_single_example(example_proto,features)
  x = tf.sparse_tensor_to_dense(parsed_features["x"])
  x = tf.cast(x,tf.int32)
  x = dict(zip(feature_names,[x]))
  y = tf.cast(parsed_features["y"],tf.int32)
  return x,y
 
 dataset = (tf.contrib.data.TFRecordDataset(file_path)
    .map(parse))
 if perform_shuffle:
  dataset = dataset.shuffle(buffer_size=256)
 dataset = dataset.repeat(repeat_count)
 dataset = dataset.padded_batch(2,padded_shapes=({'x':[6]},[1])) #batch size為2，並且x按maxlen=6來做padding
 iterator = dataset.make_one_shot_iterator()
 batch_features,batch_labels = iterator.get_next()
 return batch_features,batch_labels
 
next_batch = my_input_fn('train.tfrecords',True)
init = tf.initialize_all_variables()
with tf.Session() as sess:
 sess.run(init)
 for i in range(1):
  xs,y =sess.run(next_batch)
  print(xs['x'])
  print(y)

注意變長的資料TFRecords解析要用VarLenFeature，然後用sparse_tensor_to_dense轉換。

以上這篇使用tensorflow DataSet實現高效載入變長文字輸入就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

使用tensorflow DataSet實現高效載入變長文字輸入

DataSet是tensorflow 1.3版本推出的一個high-level的api，在1.3版本還只是處於測試階段，1.4版本已經正式推出。

tensorflow 變長序列儲存例項

問題問題是這樣的，要把一個數組存到tfrecord中，然後讀取 a = np.array([[0,54,91,153,177,1],[0,50,89,147,196],38,79,157],49,177],32,73,145]])

tensorflow入門:TFRecordDataset變長資料的batch讀取詳解

在上一篇文章tensorflow入門：tfrecord 和tf.data.TFRecordDataset的使用裡，講到了使用如何使用tf.data.TFRecordDatase來對tfrecord檔案進行batch讀取，即使用dataset的batch方法進行；但如果每條資料的長度不一樣（

在Tensorflow中實現leakyRelu操作詳解(高效)

從github上轉來，實在是厲害的想法，什麼時候自己也能寫出這種精妙的程式碼就好了

【OCR技術系列之八】端到端不定長文字識別CRNN程式碼實現

【OCR技術系列之八】端到端不定長文字識別CRNN程式碼實現 CRNN是OCR領域非常經典且被廣泛使用的識別演算法，其理論基礎可以參考我上一篇文章，本文將著重講解CRNN程式碼實現過程以及識別效果。

Tensorflow處理變長特徵

處理流程：變長特徵分割成變長陣列變長資料填充成規則陣列，組成n * m的矩陣(keras.preprocessing.sequence.pad_sequences)

JavaScript實現點選指定選項文字變紅其他選項文字不變色

技術標籤：JavaScript小作業點選哪個h1標籤讓哪個字型變成紅色（使用this）程式碼如下

c# 實現網頁載入後將頁面擷取為長圖片

背景最近再做一個需求，需要對網頁生成預覽圖，如下圖但是網頁千千萬，總不能一個個開啟，截圖吧；於是想著能不能使用程式碼來實現網頁的截圖。其實要實現這個功能，無非就是要麼實現一個模擬瀏覽器，要麼呼叫系

Nebula Graph 原始碼解讀系列｜ Vol.06 MATCH 中變長 Pattern 的實現

由之前的系列文章可以瞭解到，Nebula 的執行計劃是由許多的物理運算元組成，每個運算元都負責執行特有的計算邏輯，在 MATCH 的實現中也會涉及前述文章中的這些運算元，比如 GetNeighbors、GetVertices、Join、Proj

小程式中實現一鍵複製長段文字內容

做小程式開發，就知道其實小程式是有限制的，在小程式內無法開啟網址，只允許從一個小程式跳到另一個小程式。

萬字長文：手把手教你實現一套高效的IM長連線自適應心跳保活機制

本文作者“Carson”，現就職於騰訊公司，原題“高效保活長連線：手把手教你實現自適應的心跳保活機制”，有較多修訂和改動。

SpringBoot整合Shiro 實現動態載入許可權

一、前言本文小編將基於 SpringBoot 整合 Shiro實現動態uri許可權，由前端vue在頁面配置uri，Java後端動態重新整理許可權，不用重啟專案，以及在頁面分配給使用者角色、按鈕、uri 許可權後，後端動態分配許可權

Qt自定義控制元件實現圓圈載入進度條

本文例項為大家分享了Qt實現圓圈載入進度條的具體程式碼，供大家參考，具體內容如下

Android碎片fragment實現靜態載入的例項程式碼

靜態載入好後的介面如下，兩個碎片分別位於一個活動的左邊和右邊：左邊和右邊分別為一個碎片，這兩個碎片正好將一整個活動佈滿。一個活動當中可以擁有多個碎片，碎片的含義就是可以在同一個UI介面下，將這個介面分

使用python實現對元素的長截圖功能

一.目標瀏覽網頁的時候，看見哪個元素，就能擷取哪個元素當圖片，不管那個元素有多長

Python+Tensorflow+CNN實現車牌識別的示例程式碼

一、專案概述本次專案目標是實現對自動生成的帶有各種噪聲的車牌識別。在噪聲干擾情況下，車牌字元分割較困難，此次車牌識別是將車牌7個字元同時訓練，字元包括31個省份簡稱、10個阿拉伯數字、24個英文字母（\'O\'和

python3實現高效的埠掃描

我們通過python-nmap實現一個高效的埠掃描工具，與定時作業crontab及郵件告警結合，可以很好的幫助我們及時發現異常開放的高危埠。當然，該工具也可以作為業務服務埠的可用性探測，例如掃描192.168.209.121-125網段W

Pytorch DataLoader 變長資料處理方式

關於Pytorch中怎麼自定義Dataset資料集類、怎樣使用DataLoader迭代載入資料，這篇官方文件已經說得很清楚了，這裡就不在贅述。

在tensorflow中實現去除不足一個batch的資料

我就廢話不多說了，直接上程式碼吧！ #-*- coding:utf-8 -*- import tensorflow as tf import numpy as np

TensorFlow dataset.shuffle、batch、repeat的使用詳解

直接看程式碼例子，有詳細註釋！！ import tensorflow as tf import numpy as np d = np.arange(0,60).reshape([6,10])

使用tensorflow DataSet實現高效載入變長文字輸入

相關推薦