faster rcnn中資料標註pascal voc格式

阿新 • • 發佈：2018-12-16

<?xml version="1.0" encoding="utf-8"?>
<annotation>
    <folder>VOC2007</folder>
    <filename>test100.mp4_3380.jpeg</filename>
    <size>
        <width>1280</width>
        <height>720</height>
        <depth>3</depth>
    </size>
    <object>
        <name>gemfield</name>
        <bndbox>
            <xmin>549</xmin>
            <xmax>715</xmax>
            <ymin>257</ymin>
            <ymax>289</ymax>
        </bndbox>
        <truncated>0</truncated>
        <difficult>0</difficult>
    </object>
    <object>
        <name>civilnet</name>
        <bndbox>
            <xmin>842</xmin>
            <xmax>1009</xmax>
            <ymin>138</ymin>
            <ymax>171</ymax>
        </bndbox>
        <truncated>0</truncated>
        <difficult>0</difficult>
    </object>
    <segmented>0</segmented>
</annotation>

在這個測試圖片上，我們標註了2個object，一個是gemfield，另一個是civilnet。

在這個xml例子中：

bndbox是一個軸對齊的矩形，它框住的是目標在照片中的可見部分；
truncated表明這個目標因為各種原因沒有被框完整（被截斷了），比如說一輛車有一部分在畫面外； occluded是說一個目標的重要部分被遮擋了（不管是被背景的什麼東西，還是被另一個待檢測目標遮擋）；
difficult表明這個待檢測目標很難識別，有可能是雖然視覺上很清楚，但是沒有上下文的話還是很難確認它屬於哪個分類；標為difficult的目標在測試成績的評估中一般會被忽略。

注意：在一個<object />中，<name /> 標籤要放在前面，否則的話，目標檢測的一個重要工程實現SSD會出現解析資料集錯誤（另一個重要工程實現py-faster-rcnn則不會）。

faster rcnn中資料標註pascal voc格式

<?xml version="1.0" encoding="utf-8"?> <annotation> <folder>VOC2007</folder> <filename>test100.mp4_3

基於faster-rcnn的圖片標註和資料集生成自動化工具（資料集格式同pascal voc）

未完待續。。。 faster-rcnn的模型訓練需要大量資料集，目前使用labelImg工具，需要人工一張一張標註，效率低。本文使用python編寫了自動化圖片標註和資料集生成工具（本文標註目標是人臉，大家可以根據需要訓練其他目標判別模型，比如汽車、自行車等標註需要的圖片資

faster rcnn中VOC資料集的標註工具labelImg的使用

labelImg資源下載後並解壓，生成一個labelImg資料夾 Ubuntu 的原始碼安裝軟體支援：python2.7以上,同時需要支援PyQt和lxml的支援 $ sudo apt-get install pyqt4-dev-too

製作PASCAL VOC格式的檢測資料集，生成trainval.txt, train.txt, val.txt, test.txt檔案

import os import random xmlfilepath=r'C:\Users\Yeh Chih-En\Desktop\VOC\Annotations' saveBasePath=r"C:\Users\Yeh Chih-En\Desktop\VOC" trainval

製作PASCAL VOC格式的分割資料集，生成trainval.txt, train.txt, val.txt檔案

import os import random filepath=r'C:\models\research\deeplab\datasets\Headshoulder_dataset\dataset\JPEGImages' saveBasePath=r"C:\models\resear

Python生成PASCAL VOC格式的xml標註檔案

安裝依賴項 sudo pip install lxml 生成xml示例程式碼 #!/usr/bin/env python # coding:utf-8 #from xml.etree.ElementTree import Element, SubElement, tostring from lxm

對faster rcnn 中rpn層的理解

height 圖片 http 預測解決辦法 tar mat proposal 而是 1.介紹圖為faster rcnn的rpn層，接自conv5-3 圖為faster rcnn 論文中關於RPN層的結構示意圖 2 關於anchor：一般是在最末層

faster-rcnn中新增Mask中的RoiAlign層，使迴歸框更精確（ roi_align_layer.cu:240] Check failed: error == cudaSuccess *）

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/e01528/article/details/80265118 具體的操作為什麼這樣做，可參照： 1.Caffe學習之自定義建立新的Layer層 2.如何在caffe中自定

[caffe筆記005]：通過程式碼理解faster-RCNN中的RPN

https://blog.csdn.net/happyflyy/article/details/54917514 [caffe筆記005]：通過程式碼理解faster-RCNN中的RPN 注意：整個RPN完全是筆者自己的理解，可能會有一些理解錯誤的地方。 1. RPN簡介 RPN是reg

請問下Faster rcnn 中最後訓練出自己的模型,得到的AP=0.00 mAP=0.000? 檢測精度為什麼是0呢?[已經解決,, TillTheWorldEnd 的回答可以解決哈]

大家好,本人最近在學習faster rcnn ,小白一枚,參考了很多教程。環境: ubuntu+cuda+python 執行結果: Saving cached annotations to /home/think/asuna/py-faster-rcnn/data/VOC

faster rcnn 中核心部分RPN網路的整理與理解

學習fasterrcnn檢測已經有一段時間了，最近才把核心的RPN部分進行的理解和整理，理解的偏差還請各位大神指正， RPN(RegionProposal Network)區域生成網路 1. 在五層conv，poolling，relu之後，取出conv5的輸出，送給RPN網

faster rcnn中損失函式（二）—— Smoooh L1 Loss的講解

1. 使用Smoooh L1 Loss的原因對於邊框的預測是一個迴歸問題。通常可以選擇平方損失函式（L2損失）f(x)=x^2。但這個損失對於比較大的誤差的懲罰很高。我們可以採用稍微緩和一點絕對損失函式（L1損失）f(x)=|x|，它是隨著誤差線性增長，而不是平方增長

MAP評價指標在faster-rcnn中的使用

Mean Average Precision（MAP）：平均精度均值 1.MAP可以由它的三個部分來理解：P,AP,MAP P（Precision）精度，正確率。在資訊檢索領域用的比較多，和正確率一塊出現的是召回率Recall。對於一個查詢，返回了一系列

feature map計算方法與faster-rcnn中roi對映到feature map的位置計算方法

整理下關於CNN引數這塊的知識。 CNN一個牛逼的地方就在於通過感受野和權值共享減少了神經網路需要訓練的引數的個數。下圖左：如果我們有1000x1000畫素的影象，有1百萬個隱層神經元，那麼他們全連線的話（每個隱層神經元都連線影象的每一個畫素點），就有1000x1

在faster rcnn中使用soft nms，faster rcnn的改進（一）

1. 背景介紹我的專案是利用faster rcnn檢測kiiti資料集，用原始nms，iters = 10000的情況下，得到的mAP = 0.586, 在改用soft nms後，其他引數均不變的情況下，得到的mAP = 0.622。算是挺大的改進了，所以分

faster-rcnn中新增Mask中的RoiAlign層，使迴歸框更精確

具體的操作為什麼這樣做，可參照： ROI pooling層說起ROI Alignment，就要說道faster-rcnn的ROI pooling， ROIpooling層結構是為了將原影象的rois對映到固定大小的feature map上。而此方法有一些缺

faster rcnn中損失函式（一）——softmax，softmax loss和cross entropy的講解

先理清下從全連線層到損失層之間的計算。來看下面這張圖，（非常好的圖）。 T類 N表示前一層特徵層flatten後的數字 fltten後的特徵無限大小的T類從0-1的T類向量

faster-rcnn中，對RPN的理解

原文中rcnn部分的截圖圖片來自網上，黑色是滑動視窗的區域，就是上圖的紅色區域的sliding window其他顏色 9種視窗就是anchor機制生成的9種區域這裡要把sliding window和卷積層的滑動區別開，sliding winsow的stride步長

Faster R-CNN 資料集的檔案格式

通過標記影象獲得了影象特徵的座標，類名，為了給Faster R-CNN訓練資料集，需要把標註資料統一化成xml格式，該格式如下 <annotation> <folder>

如何讀取pkl的檔案中資料並存入txt格式中

開啟.pkl檔案程式碼： import cPickle as pickle f = open('test.pkl') inf = pickle.load(f) print inf 再開啟一個txt檔案，向內寫入剛才讀取的資訊 ft = open('te

faster rcnn中資料標註pascal voc格式

相關推薦