SCRDet——對小物體和旋轉物體更具魯棒性的模型

阿新 • • 發佈：2021-12-06

SCRDet是一個針對航拍影象檢測的模型，主要針對航拍影象這一場景下的幾個難點進行了改進。如小物體檢測難，背景噪聲干擾多、旋轉角使得迴歸困難等問題。

引言

明確提出了三個航拍影象領域內面對的挑戰：

小物體：航拍影象經常包含很多複雜場景下的小物體。
密集：如交通工具和輪船類，在航拍影象中會很密集。這個DOTA資料集的發明者也提到在交通工具和輪船類的檢測中，模型的檢測效果很差
任意方向角：航拍影象中的物體通常有多種多樣的朝向。遙感中普遍存在的大寬高比問題進一步對其提出了挑戰。

Faster R-CNN是在此領域內大家常用的兩階段目標檢測模型，但是它更加適用於水平bbox的目標檢測。而作為後處理模組的NMS也抑制了密集分佈的任意朝向的物體的檢測。

paper中提出的SCRDet模型，包含以下三個主要改進部分：

對於小物體檢測的問題，提出了SF-Net進行特徵融合和anchor取樣

對於背景噪聲多的問題，提出了MDA-Net去抑制噪聲和加強前景
對於任意方向角的密集檢測問題，通過增加一個與角度有關的引數來建立一個角度敏感的網路模組

模型介紹

SCRDet模型的基本結構如下圖所示，paper中將其稱為一個兩階段的方法，其中第一階段使用SF-Net和MDA-Net提取出包含更多特徵資訊和更少噪聲的特徵圖，但這個階段迴歸的還是水平框。在第二階段使用R-NMS方法迴歸出斜框，最終完成斜框預測的任務。

取樣和特徵融合網路（SF-Net）

作者認為在小物體檢測中的兩大障礙為：物體的特徵資訊不充分以及anchor的取樣不夠充分。由於小物體在深層網路中更容易丟失自己的特徵資訊，所以在池化層中會將小物體的特徵資訊丟失掉很多。且取樣步長過大也會導致在取樣時跳過很多小物體，導致不充分的取樣。

首先是特徵融合，由於低層次的特徵圖能夠保留更多小物體的特徵，所以基於以上特點有FPN、TDM、RON等特徵融合的方法可以使用。

其次是anchor取樣，當使用更小取樣步長的時候，經過實驗證明可以取得更好的EMO score(expected max overlapping score)。如下圖所示，使用\(S_A = 8\)的步長能夠更好的檢測出小物體。

基於以上兩個分析，提出SF-Net的模型結構如下圖所示。

其中，通過三個尺寸的取樣得到三個不同的特徵圖，SF-Net僅僅使用C3和C4的特徵圖資訊，將兩者合併以平衡語義資訊和位置資訊的比例，其中C4特徵圖還經過一個Inception模組來擴大它的接受範圍和增加它的語義資訊。最終得到一個F3特徵圖，其\(S_A\)

是期望的anchor步長

根據步長的變化，模型在DOTA資料集上的表現如下所示。可以看出最終特徵圖的步長越小，mAP的值越高，訓練時長也越長。
多維注意力網路（MDA-Net）

由於真實世界的資料的複雜性，使用原本的方法選出來的候選區域可能包含了很多的噪聲資訊。如下圖所示，這種噪聲資訊很大程度上模糊了候選區域的邊界。

處理噪聲問題的傳統方法都是採用非監督的演算法進行的，這種演算法的效率不高。在SCRDet模型中，作者設計了一個多維注意力網路MDA-Net。結構如下圖所示：

在基於畫素的注意網路中，特徵圖F3通過具有不同大小卷積核進行卷積運算，學習得到雙通道的顯著圖。這個顯著圖顯示了前景和背景的分數。選擇顯著圖中的一個通道與F3相乘，得到新的資訊特徵圖A3。需要注意的是，Softmax函式之後的顯著圖的值在[0,1]之間。換句話說，它可以降低噪聲並相對的增強物件資訊。由於顯著圖是連續的，因此不會完全消除背景資訊，這有利於保留某些上下文資訊並提高魯棒性。
表示方法

論文中採用了另一種五元組表示斜框的方法\((x, y, w, h, \theta)\)。其中\((x,y)\)表示斜框中心點的座標。\(w\)和\(h\)表示斜框矩形的長寬，\(\theta\)表示斜框的傾斜角度。

則迴歸的計算方式如下：
\[t_x = (x-x_a)/w_a, t_y = (y-y_a)/h_a \\ t_w = log(w/w_a), t_h = log(h/h_a), t_{\theta} = \theta - \theta_{a} \]
其中最終的預測結果是由R-NMS過程的proposal得到的，將proposal的結果進行順時針旋轉後，再進行長寬調整，得到最終的predict box。我們通過上述式子得到預測框和真實框的兩個迴歸結果，下一步將它們的結果放入損失函式中計算損失。
損失函式

如上圖所示，如果我們要將proposal，即藍色框迴歸到預測的位置（紅色框）上，最簡單的方法就是將其逆時針旋轉。但是這種方法的迴歸損失非常大（由於我們設定的是順時針旋轉，此時按照單一旋轉的方法迴歸到紅色框就會使角度變化很大）。此時我們可以採用另一種思路，即將藍色框迴歸到下圖灰色框的位置，然後調整灰色框的長和寬。

這種損失會使得計算更加麻煩，為了更好地解決這個問題，作者在傳統的smooth L1 損失函式中引入了IoU常數因子。整體的損失函式表達如下所示：
\[Loss = \frac{\lambda_1}{N}\sum_{n=1}^{N}t^{'}_n\sum_{j\in （x,y,w,h,\theta） }\frac{L_{reg}(v^{'}_{nj}, v_{nj})}{|L_{reg}(v^{'}_{nj}, v_{nj})|} * |- log(IoU)| \\ +\frac{\lambda_2}{h \times w}\sum_i^h\sum_j^wL_{att}(u^{'}_{ij}, u_{ij}) + \frac{\lambda_3}{N}\sum_{n=1}^NL_{cls}(p_n,t_n) \]
其中，\(\lambda\)引數使用來調整各部分損失比例大小的。\(N\)代表了proposal的數量，\(t^{'}_n\)是一個二進位制值（當其為1是表示前景，為0是表示背景）。v向量表示了斜框用\((x,y,w,h,\theta)\)五元組表示方法表示出來的向量，u向量表示了預測結果和真實結果之間的畫素相關性。IoU表示了預測框和真實框之間的重合。

三個迴歸函式分別為：\(L_{reg}\)為位置損失，使用smooth L1損失、\(L_{att}\)為注意力損失，使用交叉熵損失、\(L_{cls}\)為分類損失，使用softmax損失。

關於IoU的進一步解釋：由於IoU表示了預測框和真實框之間的相近程度，那麼它自然滿足一個屬性：當預測框和真實框之間越相近時，它的值越接近於1。這樣就可以用一個恆為正的值\(\log(IoU)\)來控制當前的梯度大小問題。我們可以將\(\frac{L_{reg}}{|L_{reg}|}\)看做一部分，它代表了當前梯度下降最快的方向向量，而把\(-log(IoU)\)看做控制梯度大小的一個變數，這樣使得損失函式更加連續。

下面是使用兩種loss函式的結果對比。可以看出使用IoU-smooth L1 loss的模型預測的結果更加好。

導致(a)這種結果的根本原因是角度的預測超出了所定義範圍。其實解決這種問題的方法並不唯一，RRPN和R_DFPN在論文的loss公式中就判斷了是不是在定義範圍內，通過加減\(k\pi\)來緩解這個問題，但這種做法明顯不優美而且仍然存在問題，主要是較難判斷超出預測範圍幾個角度週期。當然可以通過對角度部分的loss加一個週期性函式，比如\(tan\)、\(cos\)等三角函式來做，但實際使用過程中常常出現不收斂的情況。

總結

MDA-Net：作用體現在對去噪的效果以及特徵的提取上
SF-Net：作用體現在對小物體的檢測上
IoU-smooth L1 loss：作用體現在迴歸時消除邊界影響
image pyramid：作者在論文中並沒有詳細說明這一方法，其實就是將影象似金字塔般resize成多種形狀傳入模型中進行學習，這樣也是一個提高效能的好方式。

SCRDet——對小物體和旋轉物體更具魯棒性的模型

Bert文字分類實踐（三）：處理樣本不均衡和提升模型魯棒性trick

目錄寫在前面緩解樣本不均衡模型層面解決樣本不均衡Focal Loss pytorch程式碼實現資料層面解決樣本不均衡提升模型魯棒性對抗訓練對抗訓練pytorch程式碼實現知識蒸餾防止模型過擬合正則化L1和L2正則化Dropout資料增強

使用Python和OpenCV檢測影象中的物體並將物體裁剪下來

介紹碩士階段的畢設是關於昆蟲影象分類的，程式碼寫到一半，上週五導師又給我新的昆蟲圖片資料集了，新圖片中很多圖片很大，但是圖片中的昆蟲卻很小，所以我就想著先處理一下圖片，把圖片中的昆蟲裁剪下來，這樣除去

演算法--陣列11 逆序對+小和問題（歸併）

技術標籤：演算法演算法排序演算法求一個數組的逆序對總數=求一個數右邊有多少個數比它小

UE4 TSubclassOfO生成物體和定時生成

基於FloatingActor (類模板) TSubclassOf<AClass>name; SpwanActor.h中 // Fill out your copyright notice in the Description page of Project Settings.

LOL設計師：將對巖雀和奧拉夫進行小重做！巖雀將重新回到中路~

大家好，我是三月，今天在瀏覽國外社交平臺的時候看到拳頭設計師釋出了對於巖雀和奧拉夫改動方向，設計師將巖雀目前的生態問題進行調整將以中路方面進行技能方面調整，具體我們看看設計師是怎麼說的~~

這或許是對小白最友好的python入門了吧——2，變數和字串

長期以來，程式設計界都認為剛接觸一門新語言時，如果首先使用它來編寫一個在螢幕上顯示訊息 “Hello world!” 的程式，將給你帶來好運。

golang對etcd存取和數值監測的實現

測試程式碼如下 package main import ( \"fmt\" \"log\" \"time\" \"go.etcd.io/etcd/clientv3\" \"golang.org/x/net/context\"

使用TensorFlow對影象進行隨機旋轉的實現示例

在使用深度學習對影象進行訓練時，對影象進行隨機旋轉有助於提升模型泛化能力。然而之前在做旋轉等預處理工作時，都是先對影象進行旋轉後儲存到本地，然後再輸入模型進行訓練，這樣的過程會增加工作量，如果圖片數量

python 對任意資料和曲線進行擬合併求出函式表示式的三種解決方案

第一種是進行多項式擬合，數學上可以證明，任意函式都可以表示為多項式形式。具體示例如下。

有關微信的小程式和小遊戲的區別

小遊戲是小程式的一個類目，小遊戲是微信開放給小程式的更多的能力，讓小程式開發者有了開發遊戲的能力。小遊戲沒有WXSS、WXML、多頁面等內容，但加了一些渲染、檔案系統以及後臺多執行緒的功能。

Mybatis按結果巢狀處理實現多對一處理和一對多處理

1.多對一實體類 //這裡用到了lombok @Data public class Student { private int id; private String name;

LeetCode 120. 三角形最小路徑和 dp

地址https://leetcode-cn.com/problems/triangle/ 給定一個三角形，找出自頂向下的最小路徑和每一步只能移動到下一行中相鄰的結點上。

120. 三角形最小路徑和-7月15日

題目 120. 三角形最小路徑和我的思路首先很自然想到深搜和廣搜，不過時間複雜度應該相對比較高，2^n，深搜可以用遞迴實現，廣搜可以藉助一個佇列實現。

leetcode 120 三角形最小路徑和

LeetCode 120 三角形最小路徑和嘗試一: 貪心策略(無法得到全域性最優解) 每層向下在所有可選節點中選擇一個值最小的節點

【LeetCode每日一題】2020.7.14 120. 三角形最小路徑和

120. 三角形最小路徑和給定一個三角形，找出自頂向下的最小路徑和。每一步只能移動到下一行中相鄰的結點上。

LeetCode 120. 三角形最小路徑和 | Python

120. 三角形最小路徑和題目來源：力扣（LeetCode）https://leetcode-cn.com/problems/triangle

leetcode刷題筆記六十四最小路徑和

leetcode刷題筆記六十四最小路徑和源地址：64. 最小路徑和問題描述：給定一個包含非負整數的 m x n 網格，請找出一條從左上角到右下角的路徑，使得路徑上的數字總和為最小。

leetcode64 最小路徑和（Medium）

題目來源：leetcode64 最小路徑和題目描述：給定一個包含非負整數的 m x n 網格，請找出一條從左上角到右下角的路徑，使得路徑上的數字總和為最小。

LeetCode 64 最小路徑和

Leetcode 64 最小路徑和典型的動態規劃問題 /**動態規劃 * 1. DP[i][j]表示從起點(0,0)到(i,j)位置的最小路徑

SCRDet——對小物體和旋轉物體更具魯棒性的模型

引言

模型介紹

總結

相關推薦