1. 程式人生 > >Cascade RCNN論文翻譯

Cascade RCNN論文翻譯

翻譯僅為學習,如有侵權請聯絡我刪除。
翻譯不當之處請多多指教。


摘要
在目標檢測中,需要一個交併比(IOU)閾值來定義物體正負標籤。使用低IOU閾值(例如0.5)訓練的目標檢測器通常會產生噪聲檢測。然而,隨著IOU閾值的增加,檢測效能趨於下降。影響這一結果的主要因素有兩個:1)訓練過程中由於正樣本呈指數級消失而導致的過度擬合;2)檢測器為最優的IOU與輸入假設的IOU之間的推斷時間不匹配。針對這些問題,提出了一種多級目標檢測體系結構-級聯R-CNN.它由一系列隨著IOU閾值的提高而訓練的探測器組成,以便對接近的假陽性有更多的選擇性。探測器是分階段訓練的,利用觀察到的探測器輸出是訓練下一個高質量探測器的良好分佈。逐步改進的假設的重取樣保證了所有探測器都有一組等效尺寸的正的例子,從而減少了過擬合問題。同樣的級聯程式應用於推理,使假設與每個階段的檢測器質量之間能夠更緊密地匹配。Cascade R-CNN的一個簡單實現顯示,在具有挑戰性的COCO資料集上,它超過了所有的單模型物件檢測器。實驗還表明,Cascade R-CNN在檢測器體系結構中具有廣泛的適用性,獨立於基線檢測器強度獲得了一致的增益。程式碼將在

https://github.com/zhaoweicai/case-rcnn 上提供。

1 簡介
目標檢測是一個複雜的問題,需要完成兩個主要任務.首先,檢測器必須解決識別問題,區分前景物件和背景,併為它們分配合適的物件類別標籤。第二,檢測器必須解決定位問題,為不同的物件分配精確的邊界框(b-box)。這兩種方法都是特別困難的,因為檢測器面臨許多“相似的”錯誤,對應於“相似但不正確”的邊界框。檢測器必須在消除這些相似假陽性的同時找到真陽性。

圖片1、提高IOU閾值u的目標檢測器的檢測輸出、定位和檢測效能。

最近提出的許多目標檢測器是基於兩階段R-cnn框架[12,11,27,21],其中檢測是一個結合分類和邊界框迴歸的多工學習問題。與目標識別不同的是,需要一個交併比(IOU)閾值來定義正/負。然而,通常使用的閾值u(通常u=0.5)對正項的要求相當寬鬆。產生的檢測器經常產生噪聲邊界框(FP),如圖1(A)所示。假設大多數人會經常考慮相似假陽性,通過IOU≥0.5測試。雖然在u=0.5準則下彙集的例子豐富多樣,但它們使訓練能夠有效地拒絕相似假陽性的檢測器變得困難。

在本工作中,我們將假設的質量定義為其與真值框的IOU,並將探測器的質量定義為用於訓練它的IOU閾值。我們的目標是研究到目前為止學習高質量物件檢測器的研究不足的問題,它的輸出很少包含相似的假陽性,如圖1(B)所示。其基本思想是,單個檢測器只能是單個質量級別的最優檢測器。這是眾所周知的成本敏感的學習文獻[7,24],其中最優的不同點的接收操作特性(ROC)需要不同的損失函式。主要區別在於我們考慮的是給定IOU閾值的優化,而不是假陽性率。

圖1©和(D)說明了這一想法,它們分別介紹了以IOU閾值u=0.5、0.6、0.7訓練的三個探測器的定位和檢測效能。定位效能被評估為輸入提案的IOU的函式,檢測效能是IOU閾值的函式,如COCO[20]。請注意,在圖1©中,每個邊界框迴歸器對於這些IOU接近於檢測器訓練閾值IOU的示例的效能最好。這也適用於檢測效能,直到過度擬合。圖1(D)顯示,對於低IOU示例,u=0.5的檢測器優於u=0.6的檢測器,但在較高的IOU級別上表現不佳。一般來說,在單一IOU水平上優化的檢測器並不一定是其他級別的最佳檢測器。這些觀察表明,高質量的檢測要求檢測器與其所處理的假設之間進行更密切的質量匹配。一般來說,只有在給出高質量的建議時,檢測器才能具有高質量。

然而,為了製造出高質量的探測器,僅僅在訓練中增加u是不夠的。事實上,如圖1(D)中u=0.7的檢測器所見,這會降低檢測效能。問題是,假設在提案檢測器之外的分佈通常是嚴重不平衡的低質量。一般來說,強迫較大的IOU閾值會導致陽性訓練樣本以指數方式減小。對於神經網路來說,這是一個特別大的問題,因為神經網路的例子非常密集,這使得“高u”訓練策略很容易被過度適用。另一個困難是檢測器的質量與推斷的測試假設的質量不匹配。如圖1所示,高質量的檢測器必然是高質量假設的最佳選擇。當要求他們研究其他質量水平的假設時,檢測可能是次優的。

在本文中,我們提出了一種新的探測器結構,Cascade R-CNN,以解決這些問題.這是R-cnn的多階段擴充套件,檢測器的級聯階段越深,對相似假陽性就有更多的選擇性。R-CNN級的級聯是按順序訓練的,使用一個階段的輸出來訓練下一個階段。這是因為觀察到迴歸器的輸出IOU幾乎總是優於輸入IOU。這個觀察可以在圖1©中進行,其中所有的線都在灰色線之上。結果表明,用一定的IOU閾值訓練的檢測器的輸出是訓練下一次較高IOU閾值檢測器的良好分佈。這類似於在物件分析文獻[31,8]中常用的用於組裝資料集的引導方法[31,8]。主要的區別在於,Cascade R-CNN的重取樣程式並不是為了挖掘硬負面。相反,通過調整邊界框,每一階段的目標是找到一組好的相似假陽性來訓練下一階段。當以這種方式操作時,適應于越來越高的IoU的一系列檢測器可以克服過度擬合的問題,從而得到有效的訓練。在推理時,採用相同的級聯過程。逐步改進的假設在每個階段都能更好地與不斷提高的探測器質量相匹配。如圖1©和(D)所示,這使檢測精度更高。

級聯R-CNN的實施和進行端到端訓練是相當簡單的。我們的結果表明,在具有挑戰性的COCO檢測任務[20]上,一個沒有任何花哨的普通實現在很大程度上超過了所有以前的最先進的單模探測器,特別是在更高質量的評估指標下。此外,基於R-CNN框架的任何兩級目標檢測器都可以建立Cascade R-CNN。我們觀察到了一致的增益(2∼4點),在計算上略有增加。這種增益與基線目標檢測器的強度無關。因此,我們相信,這種簡單而有效的檢測架構對於許多物件檢測研究工作都是有意義的。

2 相關工作
由於R-cnn[12]體系結構的成功,通過將提議檢測器和區域分類器結合起來的檢測問題的兩階段公式在最近已經成為主流。為了減少R-CNN中多餘的cnn計算量,SPP-net[15]和Fast-RCNN[11]引入了區域特徵提取的思想,大大加快了整個檢測器的速度。後來,Faster RCNN[27]通過引入區域提案網路(RPN)實現了進一步加速。該體系結構已成為一個領先的物件檢測框架。最近的一些工作已經將它擴充套件到解決各種細節問題。例如,R-FCN[4]提出了有效的沒有準確度損失的區域方向的完全卷積,以避免對Faster RCNN進行繁重的區域CNN計算;而MS-CNN[1]和FPN[21]則在多輸出層檢測提案,以緩解RPN接收欄位與實際物件大小之間的規模不匹配,從而實現高召回建議檢測。

或者,單階段目標檢測架構也變得流行起來,主要是因為它們的計算效率。這些體系結構接近經典的滑動視窗策略[31,8]。YOLO[26]通過轉發輸入影象來輸出非常稀疏的檢測結果,當使用高效的骨幹網路實現時,它使實時目標檢測具有公平的效能。SSD[23]以類似於RPN[27]的方式檢測物件,但使用不同解析度的多個特徵對映在不同的尺度上覆蓋物件。這些結構的主要限制是它們的精度通常低於兩級探測器的精度。最近,RetinaNet[22]被提出來解決密集目標檢測中的極端前景-背景類不平衡問題,取得了比最先進的兩級目標檢測器更好的結果。

在多階段目標檢測中的一些探索也已經被提出了。多區域檢測器[9]引入了迭代邊界框迴歸,其中多次應用R-CNN來產生更好的邊界框,CRAFT[33]和AttractioNet[10]使用多級程式生成精確的建議,並將它們傳遞給FAST-RCNN。[19,25]在物件檢測網路中嵌入了經典的[31]級聯結構。[3]交替地迭代檢測和分割任務,例如例項分割。

3 目標檢測
在本文中,我們擴充套件了Faster RCNN[27,21]的兩階段體系結構,如圖3(A)所示。第一階段是一個提案子網路(H0),應用於整個影象,產生初步的檢測假設,被稱為目標提案。在第二階段,這些假設然後被一個感興趣的區域檢測子網路(H1)處理,表示為檢測頭。每個假設都有一個最終的分類分數(“C”)和一個邊框(“B”)。我們專注於多階段檢測子網路的建模,並採用但不限於RPN[27]來進行提案檢測。

3.1 邊界框迴歸
邊界框b=( b x b_x b y b_y b w b_w b h b_h )包含影象補丁x的四個座標。包圍框迴歸的任務是使用迴歸量f(x,b)將候選邊界框b迴歸到目標邊界框g中。這是從訓練樣本{ g i g_i b i b_i }中學習到的,以便將邊框風險降到最低
在這裡插入圖片描述
其中, L l o c L_{loc} 是R-CNN中的 L 2 L_2 損失函式,但更新為Fast RCNN中的smoothed L 1 L_1 損失函式。為了獎勵尺度和位置的迴歸不變數, L l o c L_{loc} 在距離向量 Δ \Delta =( δ x \delta_x , δ y \delta_y , δ w \delta_w , δ h \delta_h )中的計算定義為
在這裡插入圖片描述
由於邊界框迴歸通常對b進行較小的調整,所以(2)的數值可能很小。因此,(1)的風險通常比分類風險小得多。為了提高多工學習的有效性,∆通常用均值和方差進行歸一化,即用δx’=(δx−μx)/σx代替 δ x \delta_x ,這在文獻[27,1,4,21,14]中得到了廣泛的應用。
在這裡插入圖片描述
圖片2、順序∆分佈(無歸一化)在不同的級聯階段。增加IOU閾值時,紅點是異常值,去除異常值後得到統計量。

一些著作[9,10,16]認為,f的一個迴歸步驟不足以精確定位。相反,f被迭代地應用,作為後處理步驟來改善邊界框b
在這裡插入圖片描述
這被稱為迭代邊界框迴歸,表示為迭代BBOX。它可以用圖3(B)的推斷架構來實現,其中所有的頭部都是相同的。然而,這種想法忽略了兩個問題。首先,如圖1所示,在u=0.5處訓練的迴歸係數f對於較高的IOU假設是次優的。它實際上降解大於0.85的IOU的邊界框。其次,如圖2所示,在每次迭代之後,邊界框的分佈都會發生顯著變化。雖然迴歸量對於初始分佈是最優的,但在此之後,它可能是相當次優的。由於這些問題,迭代BBOX需要大量的人工工程,如提案積累、框選擇等。[9,10,16],有一些不可靠的收益。通常,使用超過兩次f沒有任何好處。

3.2 分類
分類器是一個函式h(x),它將影象補丁x分配給M+1類中的一個,其中類0包含背景和剩餘要檢測的物件。h(x)是所有類後驗分佈的M+1維估計,即 h k h_k (x)=p(y=k|x),其中y是類標籤。給定一個訓練集( x i x_i y i y_i ),它通過最小化分類風險來學習
在這裡插入圖片描述
其中 L c l s L_{cls} 是經典的交叉熵損失。
在這裡插入圖片描述
圖片3、不同框架的結構。"I"是輸入影象,“conv”是骨幹卷積,“pool”是區域特徵提取,“H”是網路頭部,“B”是邊界框,“C"是分類,” B 0 B_0 “是所有結構的提議。

3.3 檢測質量
由於邊界框通常包括一個物體和一定數量的背景,因此很難確定檢測是正的還是負的。這通常由IOU度量來解決。如果IOU高於閾值u,則該部分被視為類的一個示例。因此,假設x的類標號是u的函式,
在這裡插入圖片描述
其中 g y g_y 是真值框g的類標籤。IoU閾值u定義了檢測器的質量。

物件檢測具有挑戰性,因為無論閾值大小,檢測設定都是高度對抗性的。當u值較高時,陽性值包含的背景較少,但很難收集足夠多的正面訓練例項。當u值較低的時候,一個更豐富和更多樣化的正訓練集是可用的,但是經過訓練的檢測器沒有什麼動機拒絕相似的假陽性。一般來說,要求單個分類器在所有IOU級別上都表現良好是非常困難的。根據推論,由於提案檢測器產生的大多數假設,例如RPN[27]或選擇性搜尋[30],都具有低質量,因此檢測器必須對質量較低的假設更具判斷力。這些相互衝突的需求之間的一個標準折衷方案是以u=0.5為標準。然而,這是一個相對較低的閾值,導致大多數人認為是相似假陽性的低質量的檢測,如圖1(A)所示。

在這裡插入圖片描述
圖片4、訓練樣例的IoU直方圖。第一階段的分佈由RPN產生。紅色的數字是IoU大於相應IoU的正例百分比。

NAı̈Ve解決方案是開發一組分類器,其結構如圖3©所示,並以針對不同質量級別的損失為目標進行優化,
在這裡插入圖片描述
其中U是一組IoU閾值。這與[34]的積分損失密切相關,其中U={0.5,0.55,··,0.75},旨在適應CoCO挑戰的評價標準。根據定義,分類器需要在推理時集合起來。這一解決方案未能解決(6)的不同損失在不同數量的正數上工作的問題。如圖4的第一個圖所示,隨著u的增加,正樣本集合迅速減少。這是特別有問題的,因為高質量的分類器容易過度擬合。此外,這些高質量的分類器被要求在推理時處理壓倒性低質量的提案,但它們並不是最優的。由於所有這些,(6)的整合在大多數質量級別上都無法達到更高的精度,而且該體系結構與圖3(A)相比幾乎沒有什麼好處。

4、Cascade R-CNN
在本節中,我們將介紹圖3(D)中提出的Cascade R-CNN物件檢測體系結構。

4.1 級聯邊界框迴歸
如圖1©所示,很難要求單個迴歸者在所有質量級別上完美地一致執行。在級聯姿態迴歸[6]和人臉對齊[2,32]的啟發下,將難迴歸任務分解為一系列簡單的步驟。在Cascade R-CNN中,它被描述為一個級聯迴歸問題,其結構如圖3(D)所示。這依賴於一系列專門的迴歸器
在這裡插入圖片描述
其中T是級聯級的總數。請注意,對於到達相應階段的樣本分佈{ b t b^t },對級聯中的每個迴歸器 f t f_t 進行了優化,而不是對{ b 1 b^1 }的初始分佈進行優化。這種級聯逐步改進了假設。

它在幾個方面不同於圖3(B)的迭代BBOX體系結構。首先,迭代BBOX是用於改進邊界框的後處理過程,而級聯迴歸是一種重取樣過程,它改變了不同階段要處理的假設的分佈。第二,由於它既用於訓練又用於推理,因此訓練和推理分佈之間沒有差異。第三,針對不同階段的重取樣分佈,對多個特殊迴歸器{ f T f_T f T 1 f_{T-1} ,···, f 1 f_1 }進行了優化。這與(3)的單個 f 相反,後者僅對初始分佈是最優的。與迭代BBOX相比,這些差異使定位更加精確,沒有進一步的人類工程。

正如在第3.1節中所討論的, Δ \Delta =( δ x \delta_x , δ y \delta_y , δ w \delta_w , δ h \delta_h )在(2)中需要通過其均值和方差進行規範化,才能有效地進行多工學習。在每個迴歸階段之後,這些統計資料將按順序演變,如圖2所示。在訓練時,相應的統計資訊將用於在每個階段規範∆。

4.2 級聯檢測
如圖4左圖所示,最初假設(如RPN提案)的分佈嚴重傾向於低質量。這不可避免地導致了對高質量分類器的無效學習。Cascade R-CNN依靠級聯迴歸作為重取樣機制來解決這個問題.這是因為在圖1©中,所有曲線都在對角灰色線之上,即為某個確切u值訓練的邊界框迴歸器傾向於產生較高的IOU邊界框。因此,從一組示例( x i x_i b i b_i )開始,級聯迴歸成功重取樣出一個有高IoU的分佈( x i {x'}_i b i {b'}_i )。這樣,即使提高了探測器質量(IOU閾值),也有可能使連續各階段的一組正例保持在大致恆定的大小。這在圖4中得到了說明,在每個重取樣步驟之後,分佈更傾向於高質量的示例。隨後產生了兩個後果。首先,沒有過分恰當的情況,因為在所有級別上都有大量的例子。其次,針對較高的IOU閾值,對較深階段的檢測器進行了優化。請注意,一些異常值是通過增加IOU閾值來依次刪除的,如圖2所示,從而實現了經過更好訓練的專用檢測器序列。

在每個階段t,R-cnn包括一個分類器 h t h_t 和一個針對IOU閾值 u t u_t 優化的迴歸器 f t f_t ,其中 u t u^t > u t <