TensorFlow基礎4：四種類型資料的讀取流程及API講解和程式碼實現

阿新 • • 發佈：2019-01-12

在上篇文章中梳理了資料讀取的三種方式,但是在實際專案當中，由於資料量一般會比較大，所以更多的會使用第三種方法（即直接從檔案中讀取）。但是對於不同的檔案型別，需要不同的檔案處理API，有時候比較容易弄混淆，接下來就來梳理一下。

一.檔案讀取流程

這裡寫圖片描述

如上圖所示，展示了檔案讀取的大致流程。
最左邊的A、B、C是儲存於磁碟中檔案，經過打亂檔案之後（這裡是預設的亂序讀取，只是檔案的順序亂，但是檔案內容不受影響），進入到檔案佇列中（Filename Queue）。檔案隊列當中的檔案經過閱讀器（Reader）處理，儲存到記憶體當中。接下來對檔案進行解碼（Decode），解碼之後進入樣本隊列當中進行批處理，此時經過批處理之後就可以用於模型訓練了。

現在舉例，對於讀取CSV檔案，大致要經歷一下幾步：
1. 找到檔案，並構造檔案的列表（一階張量）
2. 構造檔案佇列
3. 讀取檔案內容
4. 解碼CSV並讀取內容
5. 開啟會話執行，得出訓練結果

二.檔案讀取的API

1.檔案佇列構造

tf.train.string_inout_producer(string_tensor,num_epochs,shuffle=True)

將輸出字串（例如檔名）輸入到管道佇列
string_tensor:含有檔名的一階張量，需要指定檔案路徑
num_epochs:將全部資料迴圈的次數
return:具有輸出字串的佇列

2.檔案閱讀器

此時需要根據檔案的格式，選擇對應的檔案閱讀器

（1） 文字檔案：tf.TextLineReader()

讀取文字檔案，逗號分隔值（CSV)格式，預設按行讀取
return:讀取器例項

（2）二進位制檔案：tf.FixedLengthRecordReader(record_bytes)

讀取每個記錄是固定數量位元組的二進位制檔案
record_bytes：整型，指定每次讀取的位元組數
return:讀取器例項

（3）圖片檔案：tf.WholeReader()

將檔案的全部內容作為值輸出，即一次讀取一整個檔案
return:讀取器例項

（4）TFRecords檔案:

tf.TFRecordReader()

讀取 TFRecords檔案
return:讀取器例項

注：這幾種檔案格式都有一個共同的讀取方法:`read(file_queue)`

從佇列中指定內容數量
file_name : 檔案佇列
ruturn : 返回一個Tensor元組（key,value)
- key : 檔名
- value : 每次讀取的值（一行文字、一張圖片或指定位元組的值）

3.檔案內容解碼器

由於從檔案中讀取的是字串，需要函式去解析這些字串，最後變換成張量
（1）CSV檔案：
tf.decode_csv(records,record_defaults=None,field_delim=None,name=None)

將CSV檔案轉換成張量，需要tf.TextLineReader()搭配使用
records : tensor型字串，每個字串是CSV中的記錄行（即value值）
record_defaults : 此引數決定了所得張量的型別，並設定一個值，如果在輸入字串中缺少則使用預設值，如[[1],[1]] 或者[[“None”]，[“None”]]
field_dim : 預設分隔符“ ，”

（2)二進位制檔案：
tf.decode_raw(bytes,out_type,little_endian=None,name=None)

將位元組轉換為一個數字向量表示，位元組為以字串型別的張量
與函式tf.FixedLengthRecordReader搭配使用
將二進位制轉換為uint8格式

（3）影象檔案：

1)tf.image.decode_jpeg(contens)
- 將JPEG編碼的影象解碼為uint8張量
- return : uint8張量，3-D形狀[height,width,channels]
2) tf.image.decode_png(contents)
- 將PNG編碼的影象解碼為uint8或者uint16編碼
- return : 張量型別，3-D形狀[height,width,channels]

（4）TFRecords檔案：
TFRecords檔案是TensorFlow中的統一格式，它的儲存和讀取方式較為複雜，我會在下篇文章中單獨來梳理這部分的內容。

4.批處理資料

對資料進行批處理需要在會話開啟之前進行
(1)tf.train.batch(tensors,batch_size,num_threads=1,capacity=32,name=None)

讀取指定大小（個數）的張量
tensor : 包含張量的列表
batch_size : 從佇列中讀取的批處理資料大小
num_threads : 進入佇列的執行緒數
capacity : 整數，批處理佇列中元素的最大數量
teturn : tensors

(2)tf.train.shuffle_batch(tensors,batch_size,capacity,min_after_dequeue,num_threads=1,capacity=32,name=None)

亂序讀取指定大小（數量）的張量
min_after_dequeue : 留下佇列裡的張量個數，能夠保持隨機打亂

三.示例程式碼

1.CSV檔案讀取案例

def csvread(filelist):
    """
    CSV檔案讀取
    :param filelist: 檔案的列表（1階張量）
    :return:None
    """
    #2.構造檔案的佇列
    file_queue = tf.train.string_input_producer(filelist)

    #3.讀取檔案內容tf.decode_csv()
    #構造閱讀器
    reader = tf.TextLineReader()
    #讀佇列檔案內容，一行
    key,value = reader.read(file_queue)

    #4、解碼csv檔案
    #指定每一行格式的預設值，型別，[[1],[2.0],[1]]
    records = [["None"],["None"]]

    example,label = tf.decode_csv(value,record_defaults=records)

    #批處理讀取資料
    example_batch,label_batch = tf.train.batch([example,label],batch_size=20,num_threads=1,capacity=100)

    #5、會話執行結果
    with tf.Session() as sess:
        #開啟執行緒協調器
        coord = tf.train.Coordinator()

        #建立子執行緒去進行操作，返回執行緒列表
        threads = tf.train.start_queue_runners(sess,coord = coord)

        #列印
        print(sess.run([example_batch,label_batch]))

        #回收
        coord.request_stop()   #強制請求執行緒停止
        coord.join(threads)    #等待執行緒終止回收

    return None

if __name__ == '__main__':
    #列出檔案目錄，構造路徑+檔名的列表,"A.csv"...
    # os.listdir() 方法用於返回指定的資料夾包含的檔案或資料夾的名字的列表
    filename = os.listdir('./data/csvdata')

    #加上路徑
    file_list = [os.path.join('./data/csvdata', file) for file in filename]

    csvread(file_list)

2.圖片檔案讀取案例

./data/dog檔案中儲存了100張 *.jpg格式的狗的圖片

def picread(file_list):
    """
    讀取狗圖片並轉換成張量
    :param file_list:
    :return:
    """
    #1、構造檔案的佇列
    file_queue = tf.train.string_input_producer(file_list)

    #2、生成圖片讀取器，讀取佇列內容
    reader = tf.WholeFileReader()   #返回讀取器例項

    key ,value = reader.read(file_queue)

    print(key,value)

    #3.進行圖片的解碼
    image = tf.image.decode_jpeg(value)

    print(image)

    #4.處理圖片的大小
    image_resize = tf.image.resize_images(image,[256,256])

    print(image_resize)

    #設定靜態形狀   ，動態形狀也可以
    image_resize.set_shape([256,256,3])

    print(image_resize)

    #5.進行批處理                  #此處image_siez必須指定形狀，而且要為列表
    image_batch = tf.train.batch([image_resize],batch_size=100,num_threads=1,capacity=100)

    print(image_batch)

    return image_batch


if __name__ == '__main__':

    # 找到檔案路徑，名字，構造路徑+檔名的列表,"A.csv"...
    # os.listdir() 方法用於返回指定的資料夾包含的檔案或資料夾的名字的列表
    filename = os.listdir('./data/dog')

    #加上路徑
    file_list = [os.path.join('./data/dog', file) for file in filename]

    image_batch = picread(file_list)

    with tf.Session() as sess:
        #定義執行緒協調器
        coord = tf.train.Coordinator()

        #開啟執行緒
        threads = tf.train.start_queue_runners(sess,coord=coord)

        print(sess.run(image_batch))

        #回收執行緒
        coord.request_stop()
        coord.join(threads)

3.二進位制檔案讀取案例

此案例中資料是使用的下載好的二進位制的cifar10資料

#讀取二進位制轉換檔案
class CifarRead(object):
    """
    讀取二進位制檔案轉換成張量，寫進TFRecords,同時讀取TFRcords
    """
    def __init__(self,file_list):
        """
        初始化圖片引數
        :param file_list:圖片的路徑名稱列表
        """

        #檔案列表
        self.file_list = file_list

        #圖片大小，二進位制檔案位元組數
        self.height = 32
        self.width = 32
        self.channel = 3
        self.label_bytes = 1
        self.image_bytes = self.height * self.width * self.channel
        self.bytes = self.label_bytes + self.image_bytes


    def read_and_decode(self):
        """
        解析二進位制檔案到張量
        :return: 批處理的image,label張量
        """
        #1.構造檔案佇列
        file_queue = tf.train.string_input_producer(self.file_list)

        #2.閱讀器讀取內容
        reader = tf.FixedLengthRecordReader(self.bytes)

        key ,value = reader.read(file_queue)    #key為檔名，value為元組

        print(value)

        #3.進行解碼，處理格式
        label_image = tf.decode_raw(value,tf.uint8)
        print(label_image)

        #處理格式，image，label
        #進行切片處理，標籤值
        #tf.cast()函式是轉換資料格式，此處是將label二進位制資料轉換成int32格式
        label = tf.cast(tf.slice(label_image,[0],[self.label_bytes]),tf.int32)

        #處理圖片資料
        image = tf.slice(label_image,[self.label_bytes],[self.image_bytes])
        print(image)

        #處理圖片的形狀，提供給批處理
        #因為image的形狀已經固定，此處形狀用動態形狀來改變
        image_tensor = tf.reshape(image,[self.height,self.width,self.channel])
        print(image_tensor)

        #批處理圖片資料
        image_batch,label_batch = tf.train.batch([image_tensor,label],batch_size=10,num_threads=1,capacity=10)

        return image_batch,label_batch



if __name__ == '__main__':

    # 找到檔案路徑，名字，構造路徑+檔名的列表,"A.csv"...
    # os.listdir() 方法用於返回指定的資料夾包含的檔案或資料夾的名字的列表
    filename = os.listdir('./data/cifar10/cifar-10-batches-bin/')

    #加上路徑
    file_list = [os.path.join('./data/cifar10/cifar-10-batches-bin/', file) for file in filename if file[-3:] == "bin"]

    #初始化引數
    cr = CifarRead(file_list)

    image_batch,label_batch = cr.read_and_decode()

    with tf.Session() as sess:
        #執行緒協調器
        coord = tf.train.Coordinator()

        #開啟執行緒
        threads = tf.train.start_queue_runners(sess,coord=coord)

        print(sess.run([image_batch,label_batch]))

        #回收執行緒
        coord.request_stop()
        coord.join(threads)

TFRecords檔案是TensorFlow中的統一格式，它的儲存和讀取方式較上面三種格式要稍微複雜一些，我會在下篇文章中單獨來梳理這部分的內容。

TensorFlow基礎4：四種類型資料的讀取流程及API講解和程式碼實現

一.檔案讀取流程

二.檔案讀取的API

1.檔案佇列構造

2.檔案閱讀器

注：這幾種檔案格式都有一個共同的讀取方法:`read(file_queue)`

3.檔案內容解碼器

4.批處理資料

三.示例程式碼

1.CSV檔案讀取案例

2.圖片檔案讀取案例

3.二進位制檔案讀取案例

TensorFlow基礎4：四種類型資料的讀取流程及API講解和程式碼實現

ml課程：最大熵與EM演算法及應用（含程式碼實現）

Postman的Post請求方式的四種類型的資料

TensorFlow基礎3：資料讀取的三種方式

sensor輸出的四種類型：YUV，RGB，RAW RGB，JPEG。

[c++基礎] 四種類型轉換和隱式型別轉換

php表單提交圖片、音樂、視頻、文字，四種類型共同提交到數據庫

SQL語言的四種類型和ORACLE運算符

在CSS3中，可以利用transform功能來實現文字或圖像的旋轉、縮放、傾斜、移動這四種類型的變形處理

C++四種類型轉換

在防火墻（ASA）上配置四種類型的NAT

JS的四種類型識別方式

Python之旅-Python基礎4-數據類型

遠離“精神乞丐”（IBM的前CEO郭士納把員工分為四種類型）

QAtomicInt支持四種類型的操作，Relaxed、Acquired、Release、Ordered

SpringCloud微服務基礎4：Feign

tensorflow基礎學習：字元數字驗證碼寫入tfrecord檔案封裝成類

中介軟體系列三 RabbitMQ之交換機的四種類型和屬性

static_cast,const_cat,reinterpret_cast,dynamic_cast四種類型的轉換的區別

Tensorflow基礎4-(epoch, iteration和batchsize)

TensorFlow基礎4：四種類型資料的讀取流程及API講解和程式碼實現

一.檔案讀取流程

二.檔案讀取的API

1.檔案佇列構造

2.檔案閱讀器

注：這幾種檔案格式都有一個共同的讀取方法:read(file_queue)

3.檔案內容解碼器

4.批處理資料

三.示例程式碼

1.CSV檔案讀取案例

2.圖片檔案讀取案例

3.二進位制檔案讀取案例

相關推薦

注：這幾種檔案格式都有一個共同的讀取方法:`read(file_queue)`