將資料集製作成VOC資料集格式的例項

阿新 • • 發佈：2020-02-18

在做目標檢測任務時，若使用Github已復現的論文時，需首先將自己的資料集轉化為VOC資料集的格式，因為論文作者使用的是公開資料集VOC 2007、VOC2012、COCO等型別資料集做方法驗證與比對。

一、VOC資料集格式

--VOCdevkit2007

--VOC2007

--Annotations (xml格式的檔案)

--000001.xml

--ImageSets

--Layout

--Main

--train.txt

--test.txt

--val.txt

--trainval.txt

--Segmentation

--JPEGImages (訓練集和測試集圖片)

--000001.jpg

--results

二、轉換過程步驟

1. 使用標註工具標註圖片目標檢測框，生成JSON格式的標註檔案(本人使用此生成型別的標註工具，也可使用(LabelImg等標註工具)；

2. 批量修改圖片和標註檔名稱，從000001.jpg、000001.json標號開始；

#coding='utf-8'
import os
import numpy as np
 
def imgs_rename(imgs_path):
  imgs_labels_name = np.array(os.listdir(imgs_path)).reshape(-1,2)
  # 從 000001開始
  i = 1
  for img_label_name in imgs_labels_name:
    if img_label_name[0].endswith('.jpg'):
      # 修改圖片名稱
      img_old_name = os.path.join(os.path.abspath(imgs_path),img_label_name[0])
      # 類別+圖片編號  format(str(i),'0>3s') 填充對齊
      img_new_name = os.path.join(os.path.abspath(imgs_path),'00' + format(str(i),'0>4s') + '.jpg')
      os.rename(img_old_name,img_new_name)
      # 修改json檔名稱
      label_old_name = os.path.join(os.path.abspath(imgs_path),img_label_name[1])
      label_new_name = os.path.join(os.path.abspath(imgs_path),'0>4s') + '.json')
      os.rename(label_old_name,label_new_name)
      i = i + 1
 
if __name__=='__main__':
  # 讀取json檔案的路徑
  root = "read_file_path"
 
  imgs_rename(root)

3. 提取圖片和標註檔案到不同資料夾下，並將讀取的標註框轉化為txt檔案格式(本人的圖片和JSON檔案在同一目錄下生成)；

import json
import os
import numpy as np
import cv2
 
#讀取json格式檔案，返回座標
def read_json(file_name):
  file = open(file_name,'r',encoding='utf-8')
  set = json.load(file)
  # print("讀取完整資訊：",set)
  coord = set['objects'][0]['seg'] # 只讀取第一個標註的車牌
  return coord
 
def save_imgs(imgs_jsons_files,imgs_path):
  # 提取圖片資料夾中的jpg檔名稱
  for idx in range(len(imgs_jsons_list)):
    if imgs_jsons_list[idx][-3:]=='jpg':
      img_name = imgs_jsons_list[idx]
      read_img_path = os.path.join(imgs_jsons_files,img_name)
      img = cv2.imread(read_img_path)
      save_img_path = os.path.join(imgs_path,img_name)
      cv2.imwrite(save_img_path,img)
 
def save_labels(imgs_jsons_files,labels_path):
  # 提取圖片資料夾中的json檔名稱
  for idx in range(len(imgs_jsons_list)):
    if imgs_jsons_list[idx][-4:] == 'json':
      json_name = imgs_jsons_list[idx]
 
      # 操作每一個json檔案，讀取並儲存座標
      json_path = os.path.join(imgs_jsons_files,json_name)
      json_coord = read_json(json_path)
      if len(json_coord) > 8:
        print("標註座標多於四個點的檔名稱：",json_name)
 
      # 提取左上和右下座標
      roi_coord = []
      for idx in range(len(json_coord)):
        if idx == 0 or idx == 1 or idx == 4 or idx == 5:
          roi_coord.extend([json_coord[idx]])
      # 儲存roi座標到txt檔案中
      label_path = labels_path + json_name[:6] + '.txt'
      np.savetxt(label_path,roi_coord)
 
if __name__=='__main__':
  print("loading......")
  # 讀取jpg json檔案的路徑
  imgs_jsons_files = "Jpg_json_file_path"
 
  # 儲存讀取的真實標籤路徑
  labels_path = "save_labels_path"
  if not os.path.exists(labels_path):
    os.mkdir(labels_path)
  # 儲存讀取的圖片
  imgs_path = "sabe_imgs_path"
  if not os.path.exists(imgs_path):
    os.mkdir(imgs_path)
 
  imgs_jsons_list = os.listdir(imgs_jsons_files)
 
  save_imgs(imgs_jsons_files,imgs_path)
  save_labels(imgs_jsons_files,labels_path)
  print("done!!!")

4. 轉化標註框txt格式為xml格式；

# encoding = utf-8
import os
import numpy as np
import codecs
import cv2
 
def read_txt(label_path):
  file = open(label_path,encoding='utf-8')
  label_lines = file.readlines()
  label = []
  for line in label_lines:
    one_line = float(line.strip().split('\n')[0])
    label.extend([one_line])
  return np.array(label,dtype=np.float64)
 
def covert_xml(label,xml_path,img_name,img_path):
  # 獲得圖片資訊
  img = cv2.imread(img_path)
  height,width,depth = img.shape
  x_min,y_min,x_max,y_max = label
 
  xml = codecs.open(xml_path,'w',encoding='utf-8')
  xml.write('<annotation>\n')
  xml.write('\t<folder>' + 'VOC2007' + '</folder>\n')
  xml.write('\t<filename>' + img_name + '</filename>\n')
  xml.write('\t<source>\n')
  xml.write('\t\t<database>The VOC 2007 Database</database>\n')
  xml.write('\t\t<annotation>Pascal VOC2007</annotation>\n')
  xml.write('\t\t<image>flickr</image>\n')
  xml.write('\t\t<flickrid>NULL</flickrid>\n')
  xml.write('\t</source>\n')
  xml.write('\t<owner>\n')
  xml.write('\t\t<flickrid>NULL</flickrid>\n')
  xml.write('\t\t<name>faster</name>\n')
  xml.write('\t</owner>\n')
  xml.write('\t<size>\n')
  xml.write('\t\t<width>' + str(width) + '</width>\n')
  xml.write('\t\t<height>' + str(height) + '</height>\n')
  xml.write('\t\t<depth>' + str(depth) + '</depth>\n')
  xml.write('\t</size>\n')
  xml.write('\t\t<segmented>0</segmented>\n')
  xml.write('\t<object>\n')
  xml.write('\t\t<name>plate</name>\n')
  xml.write('\t\t<pose>Unspecified</pose>\n')
  xml.write('\t\t<truncated>0</truncated>\n')
  xml.write('\t\t<difficult>0</difficult>\n')
  xml.write('\t\t<bndbox>\n')
  xml.write('\t\t\t<xmin>' + str(x_min) + '</xmin>\n')
  xml.write('\t\t\t<ymin>' + str(y_min) + '</ymin>\n')
  xml.write('\t\t\t<xmax>' + str(x_max) + '</xmax>\n')
  xml.write('\t\t\t<ymax>' + str(y_max) + '</ymax>\n')
  xml.write('\t\t</bndbox>\n')
  xml.write('\t</object>\n')
  xml.write('</annotation>')
 
if __name__=='__main__':
  labels_file_path = "D:/Code_py/VOC2007/labels/"
  imgs_file_path = "D:/Code_Py/VOC2007/imgs/"
 
  xmls_file_path = "D:/Code_py/VOC2007/xmls/"
  if not os.path.exists(xmls_file_path):
    os.mkdir(xmls_file_path)
 
  labels_name = os.listdir(labels_file_path)
  for label_name in labels_name:
    label_path = os.path.join(labels_file_path,label_name)
    label = read_txt(label_path)
 
    xml_name = label_name[:6]+'.xml'
    xml_path = os.path.join(xmls_file_path,xml_name)
 
    img_name = label_name[:6]+'.jpg'
    img_path = os.path.join(imgs_file_path,img_name)
 
    covert_xml(label,img_path)

5. 切分資料集為訓練集、驗證集和測試集，僅儲存圖片的名稱到txt問價下即可；

import os
import numpy as np
 
if __name__=='__main__':
  root = "save_path"
  train = open(root+"train.txt",encoding='utf-8')
  train_val = open(root+"trainval.txt",encoding='utf-8')
  test = open(root+"test.txt",encoding='utf-8')
  val = open(root+"val.txt",encoding='utf-8')
 
  imgs_path = os.path.join(root,"imgs")
 
  imgs_name = os.listdir(imgs_path)
 
  # 首先切分訓練驗證集和測試集
  train_val_img_info = []
  for img_name in imgs_name:
    x = np.random.uniform(0,1)
    img_info = str(img_name).strip().split('.')[0]
    # 隨機選取1/2比例的資料為測試集
    if x>0.5:
      train_val_img_info.append(img_info)
      train_val.writelines(img_info)
    else:
      test.writelines(img_info+'\n')
 
  # 然後切分訓練驗證集為訓練集和驗證集
  for img_name in train_val_img_info:
    x = np.random.uniform(0,1)
    if x>0.5:
      train.writelines(img_name+'\n')
    else:
      val.writelines(img_name+'\n')

以上這篇將資料集製作成VOC資料集格式的例項就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

將資料集製作成VOC資料集格式的例項

將自己的資料集製作成TFRecord格式教程

在使用TensorFlow訓練神經網路時，首先面臨的問題是：網路的輸入此篇文章，教大家將自己的資料集製作成TFRecord格式，feed進網路，除了TFRecord格式，TensorFlow也支援其他格

將資料分為訓練、驗證和測試集，考慮資料平衡問題和亂序，每個標籤下的資料隨機80%分到訓練集，10%到驗證和測試集

data = pd.read_excel(\"../data/dataset.xlsx\") list_label = [] train_list, dev_list, test_list = [],[],[]

python 將資料集劃分為完整資料集和缺失資料集

技術標籤：Pythonpython資料分析首先需要用的python包： import pandas as pd 然後，正式開始處理資料。 1.定義一個數組

目標檢測 – 解析VOC和COCO格式並製作自己的資料集

http://www.xyu.ink/3612.html xhy2020年10月9日無評論　　相對其他計算機視覺任務，目標檢測演算法的資料格式更為複雜。為了對資料進行統一的處理，目標檢測資料一般都會做成VOC或者COCO的格式。　　VOC和COCO都

自己的資料集由json轉為voc資料集

技術標籤：語義分割pythonjsonlinux神經網路開發環境：python3.7 下面以pascal voc2012為例進行演示：

VOC資料集與COCO資料集

技術標籤：深度學習深度學習說明：以下程式碼全部為完整的，但是其中路徑不是一個專案，可根據自己情況修改，僅供參考！個人筆記，一起學習！！ VOC2007：中包含9963張標註過的圖片，由train/val/test三部分組

VOC資料集和COCO資料集直接的相互轉換

VOC資料集（xml格式）和COCO資料集（json格式）的相互轉換我們先來看看voc和coco資料集的目錄結構：以VOC2012資料集為例，下載下來有如下五個資料夾：Annotations資料夾是存放圖片對應的xml檔案，比如“2007_0000

VOC資料集視覺化

from gettext import find import os from xml.etree import ElementTree as ET import cv2 def drawBoxOnVOC(img, xml, out, label=False):

Pascal VOC資料集標註

Pascal VOC資料集標註標註資料檔案目前流行的資料標註檔案格式主要有VOC_2007、VOC_2012，該文字格式來源於Pascal VOC標準資料集，這是衡量影象分類識別能力的重要基準之一。本文采用VOC_2007資料格式檔案，以xml格

Lab-VOC資料集（多分類）製作

Lab-VOC資料集（多分類）製作 1.使用精靈標記助手標註標記時對一張圖片標記四次

voc資料集（xml）轉yolov5資料格式（txt）訓練自己的資料集

#為方便自己檢視，比較囉嗦。。。。。 1、資料集劃分（程式碼來自別人的分享專案中的一個檔案，在專案中能跑通，單獨檔案能否跑通，還沒試）：

MMDetection v2.0 訓練自己的voc資料集

1 新建容器進入正題 mmdetection docker環境上次已經介紹一次了，現在我們新建一個容器

0x41 資料結構進階-並查集：A題程式自動分析

題目連結：https://ac.nowcoder.com/acm/contest/1031/A 題目描述在實現程式自動分析的過程中，常常需要判定一些約束條件是否能被同時滿足。

資料結構-樹與並查集

前言這幾天看了一些大學計算機的書籍，才發覺自己以前學的演算法競賽知識確實較為直白TAT且更偏向於應用，以致於有點猶豫要不要繼續簡單總結資料結構的知識了0.0。不過仔細想想這個系列可以當做整體知識框架與oi知

JDBC | 第五章: JDBC之ResultSet結果集遍歷和資料的獲取

JDBC結果集 SQL語句執行後從資料庫查詢讀取資料，返回的資料放在結果集中 ResultSet介面表示資料庫查詢的結果集。

【2】TensorFlow光速入門-資料預處理（得到資料集）

本文地址：https://www.cnblogs.com/tujia/p/13862351.html 系列文章：【0】TensorFlow光速入門-序

使用tf.data資料轉換來訓練MNIST資料集

技術標籤：TensorFlow神經網路和深度學習tensorflow神經網路深度學習以MNIST資料集為例來訓練模型

yolov3訓練自己的資料_YOLOv4 訓練自己的資料集

技術標籤：yolov3訓練自己的資料yolov3訓練自己的資料集yolov4訓練自己的資料yolov4訓練自己的資料集yolov5如何執行自己的資料集yolov5訓練自己的資料

android shell強制刪除資料夾_【程式碼合集】VBA操作資料夾程式碼合集

技術標籤：android shell強制刪除資料夾本篇文章把操作資料夾的程式碼整理了一個合集。給大家收藏備用，希望各取所需。01新建資料夾

將資料集製作成VOC資料集格式的例項

相關推薦