如何從csv檔案構建Tensorflow的資料集

阿新 • • 發佈：2020-09-22

從csv檔案構建Tensorflow的資料集

當我們有一系列CSV檔案，如何構建Tensorflow的資料集呢?

基本步驟

獲得一組CSV檔案的路徑
將這組檔名，轉成檔名對應的dataset => file_dataset
根據file_dataset中的每個檔名，讀取檔案內容生成一個內容的dataset => content_dataset
這樣的多個content_dataset,拼接起來，形成一整個dataset
因為讀出來的每條記錄都是string型別，所以還需要對每條記錄做decode

存在一個這樣的變數train_filenames

pprint.pprint(train_filenames)
#	['generate_csv\\train_00.csv',#	 'generate_csv\\train_01.csv',#	 'generate_csv\\train_02.csv',#	 'generate_csv\\train_03.csv',#	 'generate_csv\\train_04.csv',#	 'generate_csv\\train_05.csv',#	 'generate_csv\\train_06.csv',#	 'generate_csv\\train_07.csv',#	 'generate_csv\\train_08.csv',#	 'generate_csv\\train_09.csv',#	 'generate_csv\\train_10.csv',#	 'generate_csv\\train_11.csv',#	 'generate_csv\\train_12.csv',#	 'generate_csv\\train_13.csv',#	 'generate_csv\\train_14.csv',#	 'generate_csv\\train_15.csv',#	 'generate_csv\\train_16.csv',#	 'generate_csv\\train_17.csv',#	 'generate_csv\\train_18.csv',#	 'generate_csv\\train_19.csv']

接著，我們用提前定義好的API構建檔名資料集file_dataset

filename_dataset = tf.data.Dataset.list_files(train_filenames)
for filename in filename_dataset:
  print(filename)
#tf.Tensor(b'generate_csv\\train_09.csv',shape=(),dtype=string)
#tf.Tensor(b'generate_csv\\train_19.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_03.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_01.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_14.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_17.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_15.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_06.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_05.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_07.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_11.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_02.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_12.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_13.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_10.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_16.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_18.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_00.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_04.csv',dtype=string)
#tf.Tensor(b'generate_csv\\train_08.csv',dtype=string)

第三步，根據每個檔名，去讀取檔案裡面的內容

dataset = filename_dataset.interleave(
  lambda filename: tf.data.TextLineDataset(filename).skip(1),cycle_length=5
)

for line in dataset.take(3):
  print(line)

#tf.Tensor(b'0.46908349737250216,1.8718193706428006,0.13936365871212536,-0.011055733363841472,-0.6349261778219746,-0.036732316700563934,1.0259470089944995,-1.319095600336748,2.171',dtype=string)
#tf.Tensor(b'-1.102093775650278,1.313248890578542,-0.7212003024178728,-0.14707856286537277,0.34720121604358517,0.0965085401826684,-0.74698820254838,0.6810563907247876,1.428',dtype=string)
#tf.Tensor(b'-0.8901003715328659,0.9142699762469286,-0.1851678950250224,-0.12947457252940406,0.5958187430364827,-0.021255215877779534,0.7914317693724252,-0.45618713536506217,0.75',dtype=string)

interleave的作用可以類比map,對每個元素應用操作，然後還能把結果合起來。
因此，有了interleave,我們就把第三四步，一起完成了
之所以skip(1),是因為這個csv第一行是header.
cycle_length是並行化構建資料集的執行緒數

好，第五步，解析每條記錄

def parse_csv_line(line,n_fields=9):
  defaults = [tf.constant(np.nan)] * n_fields
  parsed_fields = tf.io.decode_csv(line,record_defaults=defaults)
  x = tf.stack(parsed_fields[:-1])
  y = tf.stack(parsed_fields[-1:])
  return x,y

parse_csv_line('1.2286258796252256,-1.0806245954111382,0.4444161407754224,-0.0352172575329119,0.9740347681426992,-0.003516079473801425,-0.8126524696425611,0.865609068204283,2.803',9)

#(<tf.Tensor: shape=(8,),dtype=float32,numpy= array([ 1.2286259,-1.0806246,0.44441614,-0.03521726,0.9740348,-0.00351608,-0.81265247,0.86560905],dtype=float32)>,<tf.Tensor: shape=(1,numpy=array([2.803],dtype=float32)>)

最後，將每條記錄都應用這個方法，就完成了構建。

dataset = dataset.map(parse_csv_line)

完整程式碼

def csv_2_dataset(filenames,n_readers_thread = 5,batch_size = 32,n_parse_thread = 5,shuffle_buffer_size = 10000):
  
  dataset = tf.data.Dataset.list_files(filenames)
  dataset = dataset.repeat()
  dataset = dataset.interleave(
    lambda filename: tf.data.TextLineDataset(filename).skip(1),cycle_length=n_readers_thread
  )
  dataset.shuffle(shuffle_buffer_size)
  dataset = dataset.map(parse_csv_line,num_parallel_calls = n_parse_thread)
  dataset = dataset.batch(batch_size)
  return dataset

如何使用

train_dataset = csv_2_dataset(train_filenames,batch_size=32)
valid_dataset = csv_2_dataset(valid_filenames,batch_size=32)

model = ...

model.fit(train_set,validation_data=valid_set,steps_per_epoch = 11610 // 32,validation_steps = 3870 // 32,epochs=100,callbacks=callbacks)

這裡的11610 和 3870是什麼？

這是train_dataset 和 valid_dataset中資料的數量，需要在訓練中手動指定每個batch中參與訓練的資料的多少。

model.evaluate(test_set,steps=5160//32)

同理，測試的時候，使用這樣的資料集，也需要手動指定。
5160是測試資料集的總量。

以上就是如何從csv檔案構建Tensorflow的資料集的詳細內容，更多關於csv檔案構建Tensorflow的資料集的資料請關注我們其它相關文章！

如何從csv檔案構建Tensorflow的資料集

從csv檔案構建Tensorflow的資料集當我們有一系列CSV檔案，如何構建Tensorflow的資料集呢?

2.2如何從CSV檔案中匯入資料

技術標籤：Python資料視覺化csvpython 2.2 如何從CSV檔案中匯入資料 1、CSV格式，顧名思義就是指逗號分隔的值（檔案中還包括一個檔案頭，也是用逗號分隔）2、從CSV檔案中匯入資料有一下5個步驟：

微軟 Edge Canary 90 瀏覽器現允許從 CSV 檔案匯入密碼，可轉移 LastPass 資料

3月9日訊息外媒 onMSFT 報道，微軟正在引入新的密碼匯入選項，允許 Edge 使用者從 CSV 檔案匯入密碼。該功能最近被新增到 Microsoft Edge Canary（90.0.817.0 版本）中，目前隱藏在實驗性 Flag 標誌裡面。

利用pandas向一個csv檔案追加寫入資料的實現示例

我們越來越多的使用pandas進行資料處理，有時需要向一個已經存在的csv檔案寫入資料，傳統的方法之前我也有些過，向txt，excel檔案寫入資料，傳送門：Python將二維列表（list）的資料輸出（TXT，Excel）

QT 向窗體拖動csv檔案讀取開啟資料

add.h #ifndef ADD_H #define ADD_H #include <QWidget> #include <QDragEnterEvent> #include <QTextStream>

python 從txt檔案中提取資料儲存到 xlxs 檔案中

1、python 時間的轉換和大小比較 2、寫資料到 xlsx 中 \'\'\' @description: 獲取指定的檔案中指定的資料

TensorFlow實現從txt檔案讀取資料

TensorFlow從txt檔案中讀取資料的方法很多有種，我比較常用的是下面兩種：【1】np.loadtxt

根據CSV檔案生成ImageFolder格式資料集，並按比例劃分訓練集驗證集

根據csv檔案分類，生成ImageFolder格式資料集 import csv import shutil import os target_path = \'./train_split/\'

從tensorboard中匯出資料並儲存到csv檔案中

技術標籤：pandaspythoncsvtensorflowpythonpandaspytorch 從tensorboard匯出資料並儲存到csv檔案中

ALINK(八)：載入資料集 (一)CSV檔案讀入 (CsvSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.CsvSourceBatchOp Python 類名：CsvSourceBatchOp

Python之csv檔案從MySQL資料庫匯入匯出的方法

Python從MySQL資料庫中匯出csv檔案處理 csv檔案匯入MySQL資料庫 import pymysql import csv import codecs

python資料處理之如何選取csv檔案中某幾行的資料

前言有些人看到這個問題覺得不是問題，是嘛，不就是df.col[]函式嘛，其實忽略了一個重點，那就是我們要省去把csv檔案全部讀取這個過程，因為如果在面臨億萬級別的大規模資料，得到的結果就是boom，boom，boom。

TensorFlow MNIST手寫資料集的實現方法

MNIST資料集介紹 MNIST資料集中包含了各種各樣的手寫數字圖片，資料集的官網是：http://yann.lecun.com/exdb/mnist/index.html，我們可以從這裡下載資料集。使用如下的程式碼對資料集進行載入：

Tensorflow: 從checkpoint檔案中讀取tensor方式

在使用pre-train model時候，我們需要restore variables from checkpoint files. 經常出現在checkpoint 中找不到”Tensor name not found”.

python讀取當前目錄下的CSV檔案資料

在處理資料的時候，經常會碰到CSV型別的檔案，下面將介紹如何讀取當前目錄下的CSV檔案，步驟如下

C#使用TensorFlow.NET訓練自己的資料集的方法

今天，我結合程式碼來詳細介紹如何使用 SciSharp STACK 的 TensorFlow.NET 來訓練CNN模型，該模型主要實現影象的分類，可以直接移植該程式碼在 CPU 或 GPU 下使用，並針對你們自己本地的影象資料集進行訓練和推理。

tensorflow從ckpt和從.pb檔案讀取變數的值方式

最近在學習tensorflow自帶的量化工具的相關知識，其中遇到的一個問題是從tensorflow儲存好的ckpt檔案或者是儲存後的.pb檔案(這裡的pb是把權重和模型儲存在一起的pb檔案)讀取權重，檢視量化後的權重是否變成整形。

tensorflow實現從.ckpt檔案中讀取任意變數

思路有些混亂，希望大家能理解我的意思。看了faster rcnn的tensorflow程式碼，關於fix_variables的作用我不是很明白，所以寫了以下程式碼，讀取了預訓練模型vgg16得fc6和fc7的引數，以及faster rcnn中heat_to_tail中

使用tensorflow實現VGG網路,訓練mnist資料集方式

VGG作為流行的幾個模型之一,訓練圖形資料效果不錯，在mnist資料集是常用的入門集資料，VGG層數非常多，如果嚴格按照規範來實現，並用來訓練mnist資料集，會出現各種問題，如，經過16層卷積後，28*28*1的圖片幾乎無法

tensorflow實現殘差網路方式(mnist資料集)

介紹殘差網路是何凱明大神的神作，效果非常好，深度可以達到1000層。但是，其實現起來並沒有那末難，在這裡以tensorflow作為框架，實現基於mnist資料集上的殘差網路，當然只是比較淺層的。

如何從csv檔案構建Tensorflow的資料集

相關推薦