深度學習CSV格式原始資料用於裁剪影象

阿新 • • 發佈：2018-11-10

初衷

專案需要，需要做樣本類別訓練，即將每類樣本分放在不同的資料夾，通過網路訓練後得到模型，檢測資料輸出為所屬類別；
先前深度學習輸出為類別和位置，需要遍歷全域性影象，比較耗時。

問題

分類別訓練時，需要蒐集大量樣本並進行裁剪，這是一個很費時間和感情的事情；
恰好在深度學習時，通過labelimage等工具得到樣本資料，如下圖所示：

在這裡插入圖片描述

可否通過這些資料，將樣本裁剪出來呢？
於是乎，寫了個指令碼，並且實現了。

程式碼實現

#include<fstream>
#include<map>
#include<string>
#include<vector>
#include<iostream>
using namespace std;
#include<sstream>        //istringstream 必須包含這個標頭檔案
#include<opencv2/opencv.hpp>
int main()
{
	//圖片所在資料夾
	string path = "D:\\python_objectdetection\\models-master\\models-master\\research\\object_detection\\images_Iray\\test\\";
	//CSV檔案所在路徑，即生成tfrecord前的原始資料
	ifstream fin("D:\\python_objectdetection\\models-master\\models-master\\research\\object_detection\\data\\Iray\\test.csv"); //開啟檔案流操作
	string imgpath = "";
	//輸出圖片儲存位置
	string cutpath = "D:\\train_by_CNN\\images_iray\\";
	//讀圖計數
	int count = 0;
	string line;
	//記錄行數，第一行不操作
	int lines = 0;
	vector<string>classes;

	while (getline(fin, line))   //整行讀取，換行符“\n”區分，遇到檔案尾標誌eof終止讀取
	{
					
		lines++;
				
		istringstream stream_in(line); //將整行字串line讀入到字串流istringstream中

		vector<string> fields; //宣告一個字串向量

		string field;

		while (getline(stream_in, field, ',')) //將字串流sin中的字元讀入到field字串中，以逗號為分隔符
		{
			fields.push_back(field); //將剛剛讀取的字串新增到向量fields中
		}

		if (lines == 1)
			continue;

		imgpath = path + fields[0];

		cv::Mat image = cv::imread(imgpath);

		int xmin = std::stoi(fields[4]);
		int ymin = std::stoi(fields[5]);
		int xmax = std::stoi(fields[6]);
		int ymax = std::stoi(fields[7]);

		cv::Rect roi = cv::Rect(xmin, ymin, abs(xmax - xmin), abs(ymax - ymin));
		cv::Mat image_cut = image(roi);

//我這邊有兩類，所以新建了兩個資料夾
		if (fields[3] == "car")
		{
			count++;

			cutpath = cutpath + "1//" + "car_" + to_string(count) + ".jpg";

			cv::imwrite(cutpath, image_cut);

			cutpath = "D:\\train_by_CNN\\images_iray\\";

		}
		if (fields[3] == "boat")
		{

			count++;

			cutpath = cutpath + "2//" + "boat_" + to_string(count) + ".jpg";

			cv::imwrite(cutpath, image_cut);

			cutpath = "D:\\train_by_CNN\\images_iray\\";
		}
		image.release();
		image_cut.release();
	}		
	fin.close();
}

裁剪後效果這樣，資料夾名就1、2、3區分類別，在tf那邊有相應程式碼生成record格式。

在這裡插入圖片描述

程式碼如下：


import os

import tensorflow as tf

from PIL import Image

import sys

def creat_tf(imgpath):
    cwd = os.getcwd()

    classes = os.listdir(cwd + imgpath)

    # 此處定義tfrecords檔案存放

#存放record格式資料的位置

    writer = tf.python_io.TFRecordWriter("images_iray/train.tfrecords")

    for index, name in enumerate(classes):

        class_path = cwd + imgpath + name + "/"

        print(class_path)

        if os.path.isdir(class_path):

            for img_name in os.listdir(class_path):
                img_path = class_path + img_name

                img = Image.open(img_path)

                img = img.resize((224, 224))

                img_raw = img.tobytes()

                example = tf.train.Example(features=tf.train.Features(feature={

                    'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[int(name)])),

                    'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))

                }))

                writer.write(example.SerializeToString())

                print(img_name)

    writer.close()
    
if __name__ == '__main__':
    #裁剪影象所在資料夾，是那個1、2資料夾上層路徑
    
    imgpath = '/images_iray/'

    creat_tf(imgpath)

深度學習CSV格式原始資料用於裁剪影象

初衷專案需要，需要做樣本類別訓練，即將每類樣本分放在不同的資料夾，通過網路訓練後得到模型，檢測資料輸出為所屬類別；先前深度學習輸出為類別和位置，需要遍歷全域性影象，比較耗時。問題分類別訓練時，需要蒐集大量樣本並進行裁剪，這是一個很費時間和感情的事情；恰好在深度學習時，通

深度學習訓練中關於資料處理方式--原始樣本採集以及資料增廣

好久沒有寫部落格，一直想重新調整自己的部落格，想盡可能寫的前後連貫一點，同時希望自己寫的更通熟易懂些，可是遲遲沒有動筆修改曾經的博文，哎，還是慢慢跟著自己的理解再修改之前的文章吧，今兒就寫寫關於深度學習訓練中最關鍵的一步，資料問題，也就是樣本庫的建立！來

深度學習之批量圖片資料增強

在之前的文章中，分別對資料增強的方法以及庫函式進行了介紹，本文將結合實際應用進行批量圖片的資料增強。背景：專案採集的是灰度圖，原資料只有不到20張圖片，因此，選擇資料增強的方法，通過不同變換方法的組合，實現資料增加的百張以上，這樣才可以放入深度學習模型進行訓練（利用遷移學習）。話不多

Qt將Sqlite中的表資料匯出為CSV格式表格資料

開發環境ubuntu16.04+Qt5.6.1 WIN7+Qt5.6.1兩個環境都測試過 1.問題寫一個小軟體的時候，帶有匯出excel功能，但是要在linux下執行，最後瞭解到csv格式，實現起來方便多了，只是用excel開啟中文有亂碼的現象有一個簡單的解決辦法。 2.

深度學習演算法效果提升-資料

在初學機器學習的時候，常常看到一些博友提到，做機器學習80%以上的時間都用在了處理資料上，當初不以為然。現在工作也一年多了，在實際的專案中深深地體會到了這種說法的合理性。對於深度學習演算法而言，提升效果最

結合深度學習的工業大資料應用研究

摘要：如何將大資料等核心技術與智慧製造結合，進一步提高產能與質量，並且降低成本，是新一代製造業革新的關鍵任務。通過一個具體應用案例，即針對工業中常見的機床刀具消耗冗餘的問題，提出了基於大資料和人工智慧的方法，以準確預測機床刀具的崩刃，從而增加了機床的生產效率，降低了生產成本。相對於

【深度學習】MXNet基本資料結構NDArray常用操作

文章目錄概述示例概述在MXNet深度學習框架中，NDArray是儲存和變換資料的主要工具，和NumPy中的ndarray有異曲同工之妙。在下面的示例中，主要展示了： NDarray的建立；

設定工作路徑和讀入csv格式的資料

2018年11月04日 18:19:15 sinat_24541589 閱讀數：6 標籤： R

[深度學習]自然語言處理資料集合

部落格 Sebastian Ruder About I'm a final year PhD Student in Natural Language Processing and Deep Learning at the Insight Research Centre for

有關csv格式的資料轉換成libsvm格式的資料

需要傳入一個pandas的DataFrame格式的資料，將其轉換為libsvm格式的資料程式碼如下 # -*- coding: utf-8 -*- """ Created on Sat May 1

深度學習自然語言處理資料推薦

本次首先推薦邱錫鵬老師的兩個報告： 1. Deep learning for natural language processing http://nlp.fudan.edu.cn/xpqiu/slides/[email protected] 主要討論

深度學習圖片分類增強資料集的方法彙總

1.隨機切割，圖片翻轉，旋轉，等等很多手段都可以增加訓練集，提高泛化能力.2. Resampling 或者增加噪聲等等，人工合成更多的樣本.3.對小樣本資料進行仿射變換、切割、旋轉、加噪等各種處理，可以生成更多樣本.4.用GAN生成資料提供給資料集.5.找個Imagenet資

# cs231n 深度學習與計算機視覺(資料彙總）--程式碼及說明 python3.x和python2.x的版本（每次更新完成的作業）

cs231n 深度學習與計算機視覺(資料彙總）–程式碼及說明 python3.x和python2.x的版本（每次更新完成的作業）標籤（空格分隔）：神經網路 1.python2.x版本程式碼、課程 2.python3.x版本這個是2017

深度學習的分散式訓練--資料並行和模型並行

在深度學習這一領域經常涉及到模型的分散式訓練（包括一機多GPU的情況）。我自己在剛剛接觸到一機多卡，或者分散式訓練時曾對其中到底發生了什麼有過很多疑問，後來查看了很多資料，在這篇部落格裡對分散式的深度學習模型訓練做一個總結。由於是我自己的總結，所以如果有

深度學習參考文獻及資料【持續更新】

綜述三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度學習領域的地位無人不知。為紀念人工智慧提出60週年，最新的《Nature》雜誌專門開闢了一個“人工智

【深度學習Deep Learning】資料大全

介紹:使用卷積神經網路的影象縮放. 介紹:ICML2015 論文集,優化4個+稀疏優化1個；強化學習4個，深度學習3個+深度學習計算1個；貝葉斯非參、高斯過程和學習理論3個；還有計算廣告和社會選擇.ICML2015 Sessions. 介紹:使用卷積神經網路的影象縮放. 介紹:，第28屆IEEE計算機視覺與

深度學習對話系統理論--資料集和評價指標介紹

對話系統常用評價指標當前對話系統之所以還沒有取得突破性的進展，很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標，但是很明顯對話系統的場景和需求與他們是存在差別的，這也是當前模型效果不是很好的原因之一。從對

phoenix 把CSV格式的資料匯入到Hbase執行日誌

[[email protected] phoenix-4.8.2-HBase-1.2]# HADOOP_CLASSPATH=/opt/hbase-1.2.1/lib/hbase-protocol-1.2.1.jar:/etc/hbase/conf/ hadoop

Deep Learning 11_深度學習UFLDL教程：資料預處理（斯坦福大學深度學習教程）

資料預處理是深度學習中非常重要的一步！如果說原始資料的獲得，是深度學習中最重要的一步，那麼獲得原始資料之後對它的預處理更是重要的一部分。 1.資料預處理的方法： ①資料歸一化：簡單縮放：對資料的每一個維度的值進行重新調節，使其在 [0,1]或[ − 1,1] 的區間內逐樣本均值消減：在每個

深度學習視覺領域常用資料集彙總

［導讀］ “大資料時代”，資料為王！無論是資料探勘還是目前大熱的深度學習領域都離不開“大資料”。大公司們一般會有自己的資料，但對於創業公司或是高校老師、學生來說，“Where can I get large datasets open to the public?”是不得不面對的一個問題。本文結合筆者

深度學習CSV格式原始資料用於裁剪影象

初衷

問題

程式碼實現

相關推薦