使用Tensorflow來讀取訓練自己的資料（一）

阿新 • • 發佈：2018-11-04

本文的程式碼以及思路都是參考別人的，現在只是整理一下思路，做一些解釋，畢竟是小白。

首先本文所使用的圖片資料都是https://www.kaggle.com/下載的，使用的是貓和狗的圖片集，https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data

程式碼分為三個部分，input_data.py處理原始資料，因為下載的資料圖片大小不一致等，model.py編寫網路的模型，使用了兩個卷積層，兩個池化層以及兩個全連線層，最後是training.py用來初始化並訓練模型，獲得結果。

import tensorflow as tf
import  
numpy as np
import os

# you need to change this to your data directory
# train_dir = '/home/kevin/tensorflow/cats_vs_dogs/data/train/'

#存放訓練圖片的路徑
train_dir = '/Users/arcstone_mems_108/PycharmProjects/catsvsdogs/data/train/'

#傳入檔案的路徑，或者資料夾內所有圖片的資料以及標籤

def get_files(file_dir):
    '''
    Args:
        file_dir: file directory
 
    Returns:
        list of images and labels
    '''
    cats = []
    label_cats = []
    dogs = []
    label_dogs = []

    #os.listdir為列出路徑內的所有檔案
    for file in os.listdir(file_dir):
        name = file.split(sep='.')        #將每一個檔名都進行分割，以.分割，

        #這樣檔名就變為三部分
        #name的形式為['dog', '9981', 'jpg']
 
        if name[0]=='cat':

            cats.append(file_dir + '/' + file)

            #在定義的cats列表內新增圖片路徑，由資料夾的路徑+檔名組成

            label_cats.append(0)

            #在貓的標籤列表中新增對應圖片的標籤，貓的標籤為0，狗為1
        else:
            dogs.append(file_dir + '/' + file)
            label_dogs.append(1)
    print('There are %d cats\nThere are %d dogs' %(len(cats), len(dogs)))
    #打印出訓練資料中有多少張貓的圖片，多少張狗的圖片
    image_list = np.hstack((cats, dogs))  #將貓和狗的列表合併為一個列表
    label_list = np.hstack((label_cats, label_dogs)) #將貓和狗的標籤列表合併為一個列表
    #將兩個列表構成一個數組
    temp = np.array([image_list, label_list])
    temp = temp.transpose()    #將陣列矩陣轉置
    np.random.shuffle(temp)    #將資料打亂順序，不再按照前邊全是貓，後邊全是狗這樣排序
    
    image_list = list(temp[:, 0]) #圖片列表為temp陣列的第一個元素
    label_list = list(temp[:, 1]) #標籤列表為temp陣列的第二個元素
    label_list = [int(i) for i in label_list] #轉換為int型別
    #返回讀取結果，存放在image_list,和label_list中
    return image_list, label_list

#定義函式，將圖片資料分塊來處理
def get_batch(image, label, image_W, image_H, batch_size, capacity):
    '''
    Args:
        image: list type
        label: list type
        image_W: image width
        image_H: image height
        batch_size: batch size
        capacity: the maximum elements in queue
    Returns:
        image_batch: 4D tensor [batch_size, width, height, 3], dtype=tf.float32
        label_batch: 1D tensor [batch_size], dtype=tf.int32
    '''
    #資料轉換
    image = tf.cast(image, tf.string)   #將image資料轉換為string型別
    label = tf.cast(label, tf.int32)    #將label資料轉換為int型別

    # make an input queue

    #生成輸入的佇列，每次在資料集中產生一個切片
    input_queue = tf.train.slice_input_producer([image, label])
    #標籤為索引為1的位置
    label = input_queue[1]

    #圖片的內容為讀取索引為0的位置所得的內容
    image_contents = tf.read_file(input_queue[0])

    #解碼影象，解碼為一個張量
    image = tf.image.decode_jpeg(image_contents, channels=3)
    
    ######################################
    # data argumentation should go to here
    ######################################
    #對影象的大小進行調整，調整大小為image_W,image_H
    image = tf.image.resize_image_with_crop_or_pad(image, image_W, image_H)
    
    # if you want to test the generated batches of images, you might want to comment the following line.
    # 如果想看到正常的圖片，請註釋掉111行（標準化）和 126行（image_batch = tf.cast(image_batch, tf.float32)）
    # 訓練時不要註釋掉！

    #對影象進行標準化
    image = tf.image.per_image_standardization(image)
    #使用train.batch函式來組合樣例，image和label代表訓練樣例和所對應的標籤，batch_size引數

    #給出了每個batch中樣例的個數，capacity給出了佇列的最大容量，當佇列長度等於容量時，暫停入隊

    #只是等待出隊
    image_batch, label_batch = tf.train.batch([image, label],
                                                batch_size= batch_size,
                                                num_threads= 64, 
                                                capacity = capacity)

    #將label_batch轉換格式為[]

    label_batch = tf.reshape(label_batch, [batch_size])
    image_batch = tf.cast(image_batch, tf.float32)
    #將影象格式轉換為float32型別
    return image_batch, label_batch

    #最後返回所處理得到的影象batch和標籤batch

使用Tensorflow來讀取訓練自己的資料（一）

本文的程式碼以及思路都是參考別人的，現在只是整理一下思路，做一些解釋，畢竟是小白。首先本文所使用的圖片資料都是https://www.kaggle.com/下載的，使用的是貓和狗的圖片集，https://www.kaggle.com/c/dogs-vs-cats-redux-ker

使用Tensorflow來讀取訓練自己的資料（三）

本文詳解training.py是如何編寫的。 import os import numpy as np import tensorflow as tf import input_data import model N_CLASSES = 2 # 二分類問題，只有是還是否，即0，1 IMG_W

使用Tensorflow來讀取訓練自己的資料（二）

接上一篇，繼續分析，model.py，也就是模型的構建。兩個卷積層，兩個池化層，以及後面的全連線層怎麼通過tensorflow定義的。 import tensorflow as tf def inference(images, batch_size, n_classess): # c

TensorFlow詳解貓狗識別（一）--讀取自己的資料集

資料集下載連結: https://pan.baidu.com/s/1SlNAPf3NbgPyf93XluM7Fg 密碼: hpn4 資料集分別有12500張cat，12500張dog 讀取資料集資料集的讀取，查閱了那麼多文件，大致瞭解到，資料集的讀取方法大概會分為兩種

Tensorflow + ResNet101 + fasterRcnn 訓練自己的模型資料（一）

一、資料準備： 1、PASCAL VOC資料集格式 2、資料擴充：做了旋轉【0， 90，180，270】（備註：這裡可以不做那麼多許旋轉，fasterrcnn在訓練的時候要做圖片的映象變換）、降取樣降取樣： import os import cv2 import nu

Tensorflow框架下Faster-RCNN實踐（一）——Faster-RCNN所需資料集製作（附程式碼）

最近剛實現了在Ubuntu16.04、Tensorfllow1.0下 Faster R-CNN 從資料製作到訓練再到利用生成的模型檢測的測試圖片的全過程，現在將具體的過程記錄在部落格，方便遇到困惑或者需要的朋友檢視。製作資料集利用Fast

java利用snmp4j包來讀取snmp協議資料（Manager端）

1 snmp簡單介紹 java利用snmp4j包來讀取snmp協議資料，很簡單的一個流程，就是利用java來讀取執行snmp協議的資料，例如伺服器、PC機或者路由器等運行了snmp協議的裝置。 snmp協議是什麼呢？簡單網路管理協議（SNMP），由一組網路管理的標準組成，

TensorFlow 訓練 MNIST 資料（二）

上一篇部落格講了一個簡單的基於 SoftMax 迴歸的學習模型，準確率大概在91%左右，這篇構建一個深度卷積神經網路。主要的教程還是來自於極客學院，但是講的很瑣碎，我把自己整理的思路和最後寫的完整的程式碼在這篇博文中呈現出來。這篇文章大致構建的網路結構如下：輸入層--&

day20 java 語言中的讀取寫入數據（一）

day20 java 語言中的讀取寫入數據（一）day20 java 語言中的讀取寫入數據（一）一、io概述 io數據流的讀寫功能，在實際的生活中也很常見，比如文件的上傳、下載，日誌的自動更新等都與io讀寫密切相關。io又被分為了讀取數據和寫入數據兩個大的功能。下面就來看看讀取數據的幾種類。二、讀取

pandas 常用清洗資料（一）

資料來源獲取： https://www.kaggle.com/datasets 1、 Look at the some basic stats for the ‘imdb_score’ column: data.imdb_score.describe() Select a colu

k8s中的儲存卷-節點和POD儲存資料（一）

容器的儲存卷 Pod是自己有生命週期的 Pod消失後資料也會消失所以我們要把資料放在一個容器的外面 docker儲存卷在k8s上只有一定的儲存性，因為k8s是排程的，Pod掛掉之後再啟動不會預設之前的資料位置脫離節點的儲存裝置才可以解決持久能力在K8s上Pod刪除，儲存卷也

遙感影象處理 | 利用GDAL開啟影象並讀取影象元資料（波段）資訊（C#）

事前準備：編譯並配置GDAL庫。函式和方法說明： public static Dataset Open(string utf8_path, Access eAccess) 從指定路徑讀取柵格資料。第一個引數是柵格資料的路徑，第二個引數是開啟資料的模式，GA_ReadOnly表

資料清洗- Pandas 清洗“髒”資料（一）

概要準備工作檢查資料處理缺失資料新增預設值刪除不完整的行刪除不完整的列規範化資料型別必要的轉換重新命名列名儲存結果更多資源 Pandas 是 Python 中很流行的類庫，使用它可以進行資料科學計算和資料分。他可以聯合其他資料科學計

OpenTSDB寫資料（一）

寫在前面寫入的一些配置和設計會對OpenTSDB資料庫效能產生影響，所以這不單單是簡單的資料輸入，第一部分主要是對資料的寫規入規範。寫資料（Writing Data）您可能希望直接進入並開始將資料投入TSD，但要真正利用OpenTSDB的強大功能和靈活性，您可能需

vue 與 json-server 新增資料（一）

列表頁server.vue  <div class="tj"> <span class="demonstration">ID</span> <el-input class="int-1" v-mode

pytorch訓練ImageNet筆記（一）--accuracy

一：準確度的計算 # 計算準確度 def accuracy(output, target, topk=(1,5)): """Computes the [email protected] for the specified values of k p

Java學習資料（一）——Java書籍

[SEO實戰密碼：60天網站流量提高20倍].影印版.pdf [瘋狂JAVA講義].李剛.高清掃描版.pdf 《Java語言程式設計(一)》串講筆記(完整版).doc 【網易內部資料】深入淺出MySQL資料庫開發、優化與管理維護.pdf 21天學通Java_6.pdf 30天學通Java_Web專案案例開發

SpringMVC_9_ 處理模型資料（一）之ModelAndView、Map、@SessionAttributes

SpringMVC提供了以下幾種途徑輸出模型資料： ModelAndView:處理方法返回值型別為ModelAndView時，方法體即可通過該物件新增模型資料 Map 及 Model:入參為org.springframework.ui.Model、org.springfra

前端開發中如何解析json資料（一）

json資料在web開發中，應用很廣泛，尤其是在網路資料傳輸的時候，json資料作為資料傳輸的載體，如何解析Json返回的資料變得尤為重要。那麼我們先來看一下什麼是json資料？ JSON(JavaScript Object Notation) 是一種輕量級的資料交

基於bootstrap table分頁資料及行內編輯和匯出資料（一）

第一步，匯入相應的css和js檔案 <link href="~/Content/bootstrap.min.css" rel="stylesheet" />  <

使用Tensorflow來讀取訓練自己的資料（一）

相關推薦