總結Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

阿新 • • 發佈：2020-10-09

Introduction

**
以Faster R-CNN為代表的兩階段通用目標檢測器經過改進後在行人檢測上雖精度較高但速度不給力，主要原因是它需要兩階段的處理：RPN與ROI pooling特徵的分類。
使用一階段的SSD做行人檢測時存在兩個問題，一是雖然速度還可以但在常用的行人資料集上（Citypersons和Caltech）檢測精度的結果較差。
上面的問題使得作者想去搞明白使Faster R-CNN精度高的key，以及如何將這個key轉移到SSD上。
由於SSD和Faster R-CNN都具有先驗框，因此作者認為關鍵是先驗框的兩步預測，一是RPN，二是ROI預測，而不是ROI pooling模組。

基於SSD行人檢測的第二個問題是使用單個閾值訓練造成的。一方面，較低的IoU閾值（例如0.5）有助於定義足夠數量的陽性樣本，尤其是當訓練資料中的行人例項有限時。但是在訓練過程中單個較低的IoU閾值將導致推理過程中會出現許多“接近但不正確”的誤報。另一方面在訓練過程中較高的IoU閾值（例如0.7）有助於在推理過程中拒絕接近的假陽性，但是在較高的IoU閾值下，匹配的陽性數要少得多。
這種正負的定義難題使得很難訓練高質量的SSD，但是Faster R-CNN中的兩步預測緩解了這個問題。
上面的分析使得作者想通過改進本地化和提高IoU閾值來分多個步驟訓練SSD。
Asymptotic Localization Fitting（ALF）：它直接從SSD中的先驗框開始，並逐步地演化所有錨框，從而將更多的錨框推近GTbox真值框。

Related work

**
以Two-stage的framework衍生出了很多methods來提升檢測效能，包括專注於改進網路架構、訓練策略、輔助上下文資訊挖掘等，但是計算負擔重仍然不可避免。
One-stage檢測器直接回歸先驗框，因此計算效率更高，但與兩級方法相比結果不太令人滿意。
而且在one-stage 的framework上進行行人檢測的工作很少。
以Two-stage方法，尤其是R-CNN系列衍生出了許多行人檢測的方法，包括TA-CNN、DeepParts、RPN+BF、SA-FastR-CNN等。但這些方法相比速度更多的關注於精度。
**

Approach

**
Asymptotic Localization Fitting

通過上述分析我們知道單階段方法次優主要是因為很難要求單個預測器p_n (⋅)在均勻鋪設先驗框的feature map上完美執行。一個合理的解決方案是堆疊一系列預測值p_n^t (⋅)應用於由粗到細的錨框B_n^t，其中t表示第t_th步。
在這裡插入圖片描述

其中T是總的步驟數，B_n^0 表示在第n層鋪設的先驗框，B_n^t 〖表示由B〗_n^(t−1) 得到的錨框。
使用上述方式，也就是隨著錨框的逐步細化，這意味著可以獲得更多的正樣本，後面步驟中的預測器可以用更高的IoU閾值來訓練，這有助於在推理過程中產生更精確的定位。這種方式的另一個優點是，在所有步驟中用不同IoU閾值訓練的多個分類器將以“多專家”的方式對每個錨框進行評分，因此如果正確融合，評分將比單個分類器更有把握。

圖2給出了兩個示例影象，以證明所提出的ALF模組的有效性。從圖2 (a)可以看出，在IoU閾值為0.5的情況下，分配為正樣本的先驗框分別只有7個和16個，隨著ALF步驟的增加，正樣本的先驗框數量逐漸增加，與groundtruth的平均重疊值也在增加。結果表明，前者能向後者交出更多且IOU較高的錨框。
在這裡插入圖片描述
Overall Framework

方法基於一個全卷積網路，該網路產生一組包圍盒和指示是否存在行人例項的置信度分數。基本網路層由用於影象分類的標準網路(例如ResNet-50[18]或MobileNet[20])擷取而來。
以Resnet-50為例，首先從階段3、4和5的最後一層的feature map(表示為Φ3、Φ4和Φ5，圖3(A)中的黃色塊)中發出分支，並在末端附加一個額外的卷積層，以產生Φ6，生成輔助分支(圖3(A)中的綠色塊)。在{φ3，φ4，φ5，φ6 }上執行檢測，大小分別按輸入影象的8，16，32，64 w.r.t .下采樣。對於提議生成，將寬度為{(16，24)，(32，48)，(64，80)，(128,160)}畫素且單個縱橫比為0.41的錨框分別分配給每層的feature map。
然後，在圖3(B)所示的卷積預測器塊(CPB)上添加了幾個用於包圍盒分類和迴歸的堆疊步驟。
在這裡插入圖片描述
**

Training and Inference

**
Training：如果錨框與任何GT的IOU高於閾值u_ℎ，則設定為正樣本s_+，如果IOU低於閾值u_l，則設定為負樣本s_− 。IOU在[u_l,u_h)的錨框則忽略掉。
在每一步t中，結合兩個目標的預測器的多工損失函式為：
在這裡插入圖片描述
這裡的迴歸損失l_loc 為SmoothL1 loss。l_cls 為二分類交叉熵損失。λ為平衡引數。
l_cls 由Foacl loss改進而來，其形式為：

其中，p_i 為樣本i為正的可能性。α和γ為focusing parameter，分別設為0.25和2。
為了增加訓練資料的多樣性，每個影象都增加了以下選項：在隨機顏色失真和水平影象翻轉（概率為0.5）之後，我們首先裁剪原始影象大小為[0.3，1]的色塊，然後調整色塊的大小，以使較短的一面具有N個畫素（對於CityPersons為N = 640，對於Caltech為N = 336），同時保持影象的長寬比。
**Inference：**對於每個級別，先從最終預測器中獲得迴歸錨框，並從所有預測器中獲得混合置信度得分。首先濾除分數低於0.01的框，然後將剩餘的所有框以閾值為0.5進行非最大抑制（NMS）合併。

Experiments

在這裡插入圖片描述

總結Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

Code ** Introduction ** 以Faster R-CNN為代表的兩階段通用目標檢測器經過改進後在行人檢測上雖精度較高但速度不給力，主要原因是它需要兩階段的處理：RPN與ROI pooling特徵的分類。使用一階段的SSD做行

R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

本文針對旋轉目標的檢測提出了R3det。論文地址：https://arxiv.org/abs/1908.05612 1.Introduciton

【閱讀記錄】3DSSD:Point-based 3D Single Stage Object Detector

前情提要在目前的三維目標檢測任務中，大致分為單階段和雙階段的網路。雙階段網路可以依靠pointnet++這樣的網路得到的語義資訊提供更加精確的結果。單階段網路雖然具備了快速的優點，但是由於在道路環境下點的數量龐

筆記：TPLinker Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

TPLinker Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 作者：Wang et al., COLING 2020.

Angora: Efficient Fuzzing by Principled Search

目錄1、論文介紹2、基礎知識3、論文創新點及結果論文創新點結果4、復現Angora的安裝LAVA-M測試集的安裝使用AFL對LAVA-M及進行測試使用Angora對LAVA-M及進行測試5、總結

文獻閱讀 | Fine definition of the pedigree haplotypes of closely related rice cultivars by means of genome-wide discovery of single-nucleotide polymorphisms

Yamamoto, T., Nagasaki, H., Yonemaru, J. et al. Fine definition of the pedigree haplotypes of closely related rice cultivars by means of genome-wide discovery of single-nucleotide polymorphisms. BMC

【開發總結】order by 為什麼沒有走索引？

1. 現象表結構如下 CREATE TABLE `ACT_HI_INST` ( `ID` varchar(64) COLLATE utf8_bin NOT NULL COMMENT \'主鍵\',

Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】

文章目錄 Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】一、相關概念1.1 監督學習（Supervised learning）1.2 無監督學習（Unsuper

Codeforces Round #683 (Div. 2, by Meet IT) 題解&總結

值得紀念。但以後不會再有了QAQ A 其它的增高相當於自己降低。所以按順序輸出\\(1\\)至\\(n\\)即可。

(北大青鳥)order by資料庫語句總結

先建立資料表格（依舊是之前的格式） create table student( id char(36) primary key, name varchar(8) not null, age int(3) default 0, mobile char(11), address varchar(150) ) insert into student val

Tacacs-配置single-connection單連線模式證測試與總結

技術標籤：網路雜項網路安全Tacacs+tacacsAAA安全網路其他文章： Tacacs+協議原理Tacacs+服務搭建與配置詳解Tacacs+各廠商交換機配置Tacacs+協議互動報文抓包示例Tacacs+雙通道認證配置測試與總結Tacacs+配置

Online and Offline Reinforcement Learning by Planning with a Learned Model

發表時間：2021 文章要點：文章接著muzero做的，當時muzero裡面提出了一個MuZero Reanalyze（Reanalyse）的方式，這篇文章提出的MuZero Unplugged演算法其實就是把MuZero Reanalyse用到offline RL裡面。作者想說的

聯邦學習——論文研究（FedBoost: Communication-Efficient Algorithms for Federated Learning）

主要內容：　　不同於梯度壓縮和模型壓縮，FedBoost整合學習演算法，能夠降低伺服器到客戶端

off-by-one總結

常見的型別： 1. int my_gets(char *ptr,int size) { int i; for(i=0;i<=size;i++) { ptr[i]=getchar(); } return i;

【CVPR2021】Contrastive Learning for Compact Single Image Dehazing

論文：Contrastive Learning for Compact Single Image Dehazing, CVPR 2021 程式碼：https://github.com/GlassyWu/AECR-Net

顯著性目標檢測之Learning to Promote Saliency Detectors

Learning to Promote Saliency Detectors 舊文重發 https://github.com/lartpang/Machine-Deep-Learning 縮寫標註:

FetchSGD: Communication-Efficient Federated Learning with Sketching

摘要提出了一種FetchSGD演算法來克服通訊瓶頸，使用 Count Sketch 技術壓縮模型更新，並且利用sketches的可並堆性的優點來合併模型更新。由於 Count Sketch 是線性的，動量和誤差的累積計算可以從客戶端遷移至中央

《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》論文筆記

1. 摘要　　儘管深度神經網路(DNNs)在視訊異常檢測(VAD)方面取得了很大的進展，但現有的解決方案通常存在兩個問題：

DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

發表時間：2020（ICLR 2020）文章要點：文章提出一個叫Dreamer的演算法，就是去學一個world model，然後強化學習在compact state space上進行。就相當於所有的學習過程都不是和真正的環境互動學習，而是在world m

資料庫關於partition by用於分組排序總結

1.row_number() over(order by id) as row; 對全部結果集進行排序例項：SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (ORDER BY salary desc) rank FROM employee;• 000010A00 1527501• 000030C01 982502•

總結Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

Introduction

Related work

Approach

Training and Inference

Experiments

相關推薦