Faster R-CNN 自定義Dataset

阿新 • • 發佈：2021-01-27

files_path = "./VOCdevkit/VOC2012/Annotations"
if not os.path.exists(files_path):
    print("資料夾不存在")
    exit(1)
val_rate = 0.5

files_name = sorted([file.split(".")[0] for file in os.listdir(files_path)])
files_num = len 
(files_name)
val_index = random.sample(range(0, files_num), k=int(files_num*val_rate))
train_files = []
val_files = []
for index, file_name in enumerate(files_name):
    if index in val_index:
        val_files.append(file_name)
    else:
        train_files.append(file_name)

try:
    train_f = open 
("train.txt", "x")
    eval_f = open("val.txt", "x")
    train_f.write("\n".join(train_files))
    eval_f.write("\n".join(val_files))
except FileExistsError as e:
    print(e)
    exit(1)

my_dataset.py

from torch.utils.data import Dataset
import 
 os
import torch
import json
from PIL import Image
from lxml import etree


class VOC2012DataSet(Dataset):
    """讀取解析PASCAL VOC2012資料集"""

    def __init__(self, voc_root, transforms, txt_name: str = "train.txt"):
        self.root = os.path.join(voc_root, "VOCdevkit", "VOC2012")
        self.img_root = os.path.join(self.root, "JPEGImages")
        self.annotations_root = os.path.join(self.root, "Annotations")

        # read train.txt or val.txt file
        txt_path = os.path.join(self.root, "ImageSets", "Main", txt_name)
        assert os.path.exists(txt_path), "not found {} file.".format(txt_name)

        with open(txt_path) as read:
            self.xml_list = [os.path.join(self.annotations_root, line.strip() + ".xml")
                             for line in read.readlines()]

        # read class_indict
        try:
            json_file = open('./pascal_voc_classes.json', 'r')
            self.class_dict = json.load(json_file)
        except Exception as e:
            print(e)
            exit(-1)

        self.transforms = transforms

    def __len__(self):
        return len(self.xml_list)

    def __getitem__(self, idx):
        # read xml
        xml_path = self.xml_list[idx]
        with open(xml_path) as fid:
            xml_str = fid.read()
        xml = etree.fromstring(xml_str)
        data = self.parse_xml_to_dict(xml)["annotation"]
        img_path = os.path.join(self.img_root, data["filename"])
        image = Image.open(img_path)
        if image.format != "JPEG":
            raise ValueError("Image format not JPEG")
        boxes = []
        labels = []
        iscrowd = []
        for obj in data["object"]:
            xmin = float(obj["bndbox"]["xmin"])
            xmax = float(obj["bndbox"]["xmax"])
            ymin = float(obj["bndbox"]["ymin"])
            ymax = float(obj["bndbox"]["ymax"])
            boxes.append([xmin, ymin, xmax, ymax])
            labels.append(self.class_dict[obj["name"]])
            iscrowd.append(int(obj["difficult"]))

        # convert everything into a torch.Tensor
        boxes = torch.as_tensor(boxes, dtype=torch.float32)
        labels = torch.as_tensor(labels, dtype=torch.int64)
        iscrowd = torch.as_tensor(iscrowd, dtype=torch.int64)
        image_id = torch.tensor([idx])
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])

        target = {}
        target["boxes"] = boxes
        target["labels"] = labels
        target["image_id"] = image_id
        target["area"] = area
        target["iscrowd"] = iscrowd

        if self.transforms is not None:
            image, target = self.transforms(image, target)

        return image, target

    def get_height_and_width(self, idx):
        # read xml
        xml_path = self.xml_list[idx]
        with open(xml_path) as fid:
            xml_str = fid.read()
        xml = etree.fromstring(xml_str)
        data = self.parse_xml_to_dict(xml)["annotation"]
        data_height = int(data["size"]["height"])
        data_width = int(data["size"]["width"])
        return data_height, data_width

    def parse_xml_to_dict(self, xml):
        """
        將xml檔案解析成字典形式，參考tensorflow的recursive_parse_xml_to_dict
        Args:
            xml: xml tree obtained by parsing XML file contents using lxml.etree
        Returns:
            Python dictionary holding XML contents.
        """

        if len(xml) == 0:  # 遍歷到底層，直接返回tag對應的資訊
            return {xml.tag: xml.text}

        result = {}
        for child in xml:
            child_result = self.parse_xml_to_dict(child)  # 遞迴遍歷標籤資訊
            if child.tag != 'object':
                result[child.tag] = child_result[child.tag]
            else:
                if child.tag not in result:  # 因為object可能有多個，所以需要放入列表裡
                    result[child.tag] = []
                result[child.tag].append(child_result[child.tag])
        return {xml.tag: result}

    def coco_index(self, idx):
        """
        該方法是專門為pycocotools統計標籤資訊準備，不對影象和標籤作任何處理
        由於不用去讀取圖片，可大幅縮減統計時間
        Args:
            idx: 輸入需要獲取影象的索引
        """
        # read xml
        xml_path = self.xml_list[idx]
        with open(xml_path) as fid:
            xml_str = fid.read()
        xml = etree.fromstring(xml_str)
        data = self.parse_xml_to_dict(xml)["annotation"]
        data_height = int(data["size"]["height"])
        data_width = int(data["size"]["width"])
        # img_path = os.path.join(self.img_root, data["filename"])
        # image = Image.open(img_path)
        # if image.format != "JPEG":
        #     raise ValueError("Image format not JPEG")
        boxes = []
        labels = []
        iscrowd = []
        for obj in data["object"]:
            xmin = float(obj["bndbox"]["xmin"])
            xmax = float(obj["bndbox"]["xmax"])
            ymin = float(obj["bndbox"]["ymin"])
            ymax = float(obj["bndbox"]["ymax"])
            boxes.append([xmin, ymin, xmax, ymax])
            labels.append(self.class_dict[obj["name"]])
            iscrowd.append(int(obj["difficult"]))

        # convert everything into a torch.Tensor
        boxes = torch.as_tensor(boxes, dtype=torch.float32)
        labels = torch.as_tensor(labels, dtype=torch.int64)
        iscrowd = torch.as_tensor(iscrowd, dtype=torch.int64)
        image_id = torch.tensor([idx])
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])

        target = {}
        target["boxes"] = boxes
        target["labels"] = labels
        target["image_id"] = image_id
        target["area"] = area
        target["iscrowd"] = iscrowd

        return (data_height, data_width), target

    @staticmethod
    def collate_fn(batch):
        return tuple(zip(*batch))

# import transforms
# from draw_box_utils import draw_box
# from PIL import Image
# import json
# import matplotlib.pyplot as plt
# import torchvision.transforms as ts
# import random
#
# # read class_indict
# category_index = {}
# try:
#     json_file = open('./pascal_voc_classes.json', 'r')
#     class_dict = json.load(json_file)
#     category_index = {v: k for k, v in class_dict.items()}
# except Exception as e:
#     print(e)
#     exit(-1)
#
# data_transform = {
#     "train": transforms.Compose([transforms.ToTensor(),
#                                  transforms.RandomHorizontalFlip(0.5)]),
#     "val": transforms.Compose([transforms.ToTensor()])
# }
#
# # load train data set
# train_data_set = VOC2012DataSet(os.getcwd(), data_transform["train"], True)
# print(len(train_data_set))
# for index in random.sample(range(0, len(train_data_set)), k=5):
#     img, target = train_data_set[index]
#     img = ts.ToPILImage()(img)
#     draw_box(img,
#              target["boxes"].numpy(),
#              target["labels"].numpy(),
#              [1 for i in range(len(target["labels"].numpy()))],
#              category_index,
#              thresh=0.5,
#              line_thickness=5)
#     plt.imshow(img)
#     plt.show()

transforms.py

class Compose(object):
    """組合多個transform函式"""
    def __init__(self, transforms):
        self.transforms = transforms

    def __call__(self, image, target):
        for t in self.transforms:
            image, target = t(image, target)
        return image, target


class ToTensor(object):
    """將PIL影象轉為Tensor"""
    def __call__(self, image, target):
        image = F.to_tensor(image)
        return image, target


class RandomHorizontalFlip(object):
    """隨機水平翻轉影象以及bboxes"""
    def __init__(self, prob=0.5):
        self.prob = prob

    def __call__(self, image, target):
        if random.random() < self.prob:
            height, width = image.shape[-2:]
            image = image.flip(-1)  # 水平翻轉圖片
            bbox = target["boxes"]
            # bbox: xmin, ymin, xmax, ymax
            bbox[:, [0, 2]] = width - bbox[:, [2, 0]]  # 翻轉對應bbox座標資訊
            target["boxes"] = bbox
        return image, target

Faster R-CNN 自定義Dataset

技術標籤：faster-RCNNpython深度學習 bilibili spilt_data.py files_path = "./VOCdevkit/VOC2012/Annotations"

PyTorch 自定義 Dataset 及訓練集、測試集劃分方法

技術標籤：PyTorch 基礎例項 1：自定義資料集類，torch.utils.data.random_split() 劃分訓練集和測試集，通過普通遍歷方式使用自定義資料集中的樣本

Faster R-CNN小結

1. 從Fast R-CNN到Fast R-CNN 由圖可見，Faster-RCNN引入了RPN網路（region proposal network）來代替selective-search，

如何使用Faster R-CNN來計算物件個數

準確地在給定的影象或視訊幀中計算物件個數的例項是機器學習中很難解決的問題。儘管許多解決方案已經被開發出來，用來計算人、汽車和其他物體的數量，但是沒有一個是完美的辦法。當然，我們這裡討論的是影象處理，所

Faster R-CNN中的RPN的理解

RPN的作用 rpn是相對於選擇性搜尋策略做出的改進，該區域生成網路的輸入是backbone的一個或多個特徵層，維度不妨設為（B,C,H,W）先通過3x3的卷積將輸入的特徵圖的特徵進行融合，接著利用兩個獨立的1x1卷積輸出object

PyTorch自定義資料載入：深究Dataset與DataLoader類

PyTorch自定義資料載入：深究Dataset與DataLoader類寫在文章開頭資料載入步驟建立Dataset物件建立DataLoader物件迴圈獲取資料用以訓練

mnist 自定義CNN模型與lenet

mnist 自定義CNN模型與lenet import numpy as np import matplotlib.pyplot as plt from tensorflow import keras

vue 自定義屬性 data-num dataset.num

在 vue 中，儘量避免對dom的操作，通過對狀態的管理實現需要的功能舉個例子：vue獲取dom元素可以使用 ref 要想獲得自定義屬性，可以通過設定 ref 實現

pytorch資料集和資料處理部分dataset自定義、繼承

https://blog.csdn.net/zhenaoxi1077/article/details/80953227 一、資料載入在Pytorch 中，資料載入可以通過自己定義的資料集物件來實現。資料集物件被抽象為Dataset類，實現自己定義的資料集需要繼承Dataset,

自定義MVC開發的Xcode模板

前言 Xcode分為系統模板和自定義模板。模板的好處如下： 1、節省重複程式碼手寫時間

GKCycleScrollView - 一個輕量級的自定義輪播圖元件

前言最近開發遇到要實現卡片式的輪播，經過網上搜索資料查詢發現NewPagedFlowView寫的不錯，但在使用過程中發現有不少問題，於是自己仿照著封裝了一個，而且實現了更多的效果，下面具體說說

WSLoader - 一個可自定義樣式的圓形進度載入控制元件

WSLoader 一個可自定義樣式的圓形進度載入控制元件。歡迎 star/issue Github Repo I. 效果

自定義註解加AOP怎麼玩？

原文地址前言註解是在JDK1.5之後引入的新特性位於 java.lang.annotation ,註解其實就是對程式碼進行一種特殊的標記，這些標記可以在編譯，類載入和執行時被讀取，並執行相應的處理。本文主要分析如何自定義註解和註

自定義 UITableView 的 Cell 刪除樣式

一、需求先說下我們的需求，在一個 tableView 中，左滑刪除某個 cell 時，需要展示如下圖所示的樣式，淺灰色底色，橘紅色文字。

基於 RedisTemplate 自定義 Redis 操作類

歡迎糾錯！！！該操作類基於自定義的 RedisTemplate，關於自定義 RedisTemplate，請參考Spring Boot 2.0 整合 redis

Libra教程之:執行自定義move modules

簡介因為Libra和Move都是在不斷髮展的過程，在本文釋出的時候，自定義Move modules還不能在testnet上面釋出，只能在本地環境釋出，下面我們將會看一下到底怎麼才能在本地網路上面執行一個自定義Move程式。

Spring自定義標籤配置的原始碼解析與實現

概述 Spring中，從AbstractXmlApplicationContext開始，通過對NamespaceHandler &BeanDefinitionParser，來實現自定義xml配置的功能。

看完這篇文章你還感覺SpringSecurity整合OAuth2自定義查詢使用者複雜嗎？

SpringSecurity整合OAuth2是開發者公認的資源保護、服務認證的最佳搭配夥伴，這對好基友一直在默默的守護著應用服務的安全，根據訪問者的不同角色可以顆粒度控制到具體的介面，從而實現許可權的細微劃分。

自定義你自己的Eureka管理介面

Eureka服務端的介面是可以自定義的，而且方式比較簡單，下面我們來看下修改方式。

Spring Boot 通過AOP和自定義註解實現許可權控制

相逢便是緣，路過點個贊 ^.^ 原始碼：https://github.com/yulc-coding/java-note/tree/master/aop

Faster R-CNN 自定義Dataset

相關推薦