1. 程式人生 > 實用技巧 >YOLO1學習筆記:You Only Look Once:Unified,Real-Time Object Detection

YOLO1學習筆記:You Only Look Once:Unified,Real-Time Object Detection

摘要

​ 我們提出了YOLO,一種新的目標檢測方法。先前有關物件檢測的工作使用分類器執行檢測。取而代之的是,我們將目標檢測框架化為一個空間分割邊界框和相關類概率迴歸問題。單個神經網路在一次評估中直接從完整影象中預測邊界框和類概率。由於整個檢測流程是在一個網路中完成的,因此該網路可以端到端的進行效能優化。

我們的網路是一個統一的框架,因此其檢測速度非常快。我們的YOLO模型每秒可以實時處理45幀影象。較小的網路Fast YOLO,其處理能力達到驚人的155幀/秒,實現了兩倍於其他實時檢測網路的mAP。與最先進的監測系統相比,YOLO定位誤差更大,但預測背景假陽性的可能性較小。(將背景檢測為目標的可能性更小)。最終,YOLO可以學習非常通用的目標表示。當從自然影象到藝術品等其他領域進行泛化時,YOLO的效能優於其他方法,包括DPM和RCNN。

1.介紹

​ 人類掃一眼影象就可以立即知道影象中有哪些物件,以及它們在哪和它們的相互關係。人類視覺系統的快速和準確使得我們可以執行復雜的任務,例如很少有意識的思考如何開車。快速,準確的目標檢測演算法允許計算機無需專用的感測器即可駕駛汽車,使輔助裝置能向人類傳遞實時場景資訊,並釋放通用的響應式機器人系統的潛力。

​ 當前的目標檢測系統重新使用分類器來進行檢測。為了檢測一個目標,這些系統使用分類器在測試影象的各個位置和比例上對其進行了評估。DPM系統使用了滑窗方法,其中分類器在整幅影象上均勻間隔的位置執行。

​ 最近的R-CNN網路使用區域提取方法,首先在圖片上生成潛在邊界框,然後在這些框上使用分類器。分類完成以後,使用後期處理來精簡邊界框,消除重複的檢測,以及根據場景中的其他物件對邊界框進行評分。這些複雜的過程使得檢測速度慢並難以進行優化,因為每個單獨的模組都必須分別進行訓練。

​ 我們將目標檢測重構為單個迴歸問題,直接從影象畫素得到邊界框的座標和類別概率。使用我們的系統,您只需看一次即可預測存在哪些物件以及他們在哪裡。

​ YOLO非常簡單,如圖1所示,一個簡單的卷積網路同時預測多個邊界框及其類別概率。YOLO在整幅影象上進行訓練並直接優化檢測效能,與傳統目標檢測方法相比,這個統一的模型有更多的優點。

​ 第一,YOLO的速度非常快。由於我們將檢測看為一個迴歸問題,因此我們不需要複雜的過程。我們只需在測試時在新影象上執行神經網路即可預測檢測結果。我們的基礎網路在沒有批處理時可以在Titan X GPU上達到每秒45幀,快速版的網路可以超過150fps。這意味著我們可以實時處理流式視訊,延遲時間少於25毫秒。此外,YOLO達到其他實時系統平均平均精度的兩倍以上。

​ 第二,YOLO預測時可以在整幅影象上進行推理。與滑窗和基於區域提取的方法不同,YOLO可以在訓練和測試時看到整幅影象,因此它隱式的編碼有關類的上下文資訊及其外觀。Fast R-CNN是一種頂部檢測方法,它會將圖片中的背景誤認為是目標,因為它看不到更大的上下文資訊,與Fast-R-CNN相比,YOLO產生的背景錯誤少於一半。

​ 第三,YOLO可以學習物體的泛化表示。當在自然影象上訓練,在藝術影象上測試時,YOLO大幅優於DPM和Fast R-CNN等頂級檢測方法。由於YOLO具有高度可通用性,因此在應用於新域或不期望的輸入時不太可能出錯。

​ YOLO仍在檢測精度上落後於其他方法。雖然他可以快速的識別影象中的物體,但它很難精確的定位某些物體,尤其是小物體。我們在實驗中進一步研究了這些權衡。

​ 我們所有的訓練和測試程式碼都是開源的,各種預訓練模型也可以下載。

2. 統一檢測

​ 我們將目標檢測的單獨元件統一到單個神經網路中,我們的網路使用整幅影象的特徵來預測每一個邊界框。它還可以同時預測所有類別的多有邊界框。這意味著我們的網路會從整體上對整個影象和影象中的所有物件進行解釋。YOLO設計可實現端到端的培訓和實時速度,同時保持較高的平均精度。

​ 我們的系統將輸入影象分為SxS的網格,如果目標的中心落入一個網格單元中,那麼這個網格單元將負責檢測該目標。

​ 每個網格預測B個邊界框和每個框的置信度。置信度反映了網路在多大程度上相信邊界框中包含一個物體,以及它認為該框預測的準確性。

​ 最終,我們將置信度定義為Pr(Object) * IOU.如果網格中沒有目標存在,那麼置信度為0。否則置信度等於預測框和真實值之間的交集(IOU)。

​ 每個邊界框包含5個預測值:x,y,w,h,confidence。(x,y)座標表示相對於grid cell 左上角的邊界框中心位置,w,h是被預測的邊界框相對於整個圖片的寬度和高度。最後,置信度預測表示預測框與真實框之間的IOU。

​ 每個網格單元還預測C個條件類概率Pr(Class[i] | Object),這個概率取決於包含物件的網格單元。我們只預測每個網格單元的一組類概率,而不管方框B的數量。

​ 在測試時我們將每個網格的條件概率和每個邊界框的置信度預測相乘,

image-20200702092439875

​ 這給出了每個邊界框的特定類別的置信度。這些置信度分數編碼了該類出現在框中的概率以及預測框擬合目標的程度。

image-20200702094849310

YOLO在檢測PASCAL VOC資料集時,使 S=7,B=2. PASCAL VOC資料集有20種標記的類別,因此 C=20. 我們最終預測的是一個 7*7*30 的張量。(S * S * (B * 5 + C)

2.1 網路設計

​ 我們將此模型實現為卷積神經網路,並在PASCAL VOC檢測資料集上進行評估。網路的初始卷積層從影象中提取特徵,而全連線層預測輸出概率和座標。

​ 我們的網路結構受到GoogLeNet影象分類模型的啟發。我們的網路有24個卷積層和2個全連線層。除了被GoogLeNet使用的初始模組,我們只使用1 * 1縮減層,然後使用3 * 3卷積層,類似於Lin等人的工作[22]。 完整的網路如圖3所示。

​ 我們還訓練了一種快速版的YOLO,旨在突破快速物體檢測的界限。Fast YOLO使用的神經網路具有較少的卷積層(從9個而不是24個),並且這些層中的過濾器更少。除網路規模外,所有訓練和測試引數在YOLO和Fast YOLO之間都是相同的。

image-20200702100959924

我們網路的最終輸出是7x7x30張量的預測。

2.2 訓練

​ 我們在1000類的ImageNet競賽資料集上預先訓練我們的卷積層。 對於預訓練,我們使用圖3中的前20個卷積層,然後是平均池化和全連線層。 我們訓練這個網路大約一週,並在ImageNet 2012驗證集上實現88%的single crop前5精度,與Caffe’s Model Zoo中的GoogLeNet模型相當。

​ 然後我們轉換模型以執行檢測。Ren等人表明將卷積和連線層新增到預訓練網路可以提高效能。 按照他們的例子,我們添加了四個卷積層和兩個全連線層,隨機初始化權重。檢測通常需要細粒度的視覺資訊,因此我們將網路的輸入解析度從224x224提高到448x448。

​ 我們的最後一層預測了類概率和邊界框座標。我們將邊界框寬度和高度標準化為影象寬度和高度,使它們落在0和1之間。我們將邊界框的x和y座標引數化為特定網格單元位置的偏移量,因此它們也被限制在0和1之間。

​ 我們對最終層使用線性啟用函式,所有其他層使用以下leaky線性啟用:

image-20200702102658823

​ 我們優化模型輸出中的求和平方誤差。我們使用求和平方誤差,因為它很容易優化,但它並不完全符合我們最大化平均精度的目標。它的定位誤差與分類誤差相同,這可能並不理想。此外,在每個影象中,許多網格單元不包含任何物件。這會將這些單元格的“置信度”得分推向零,這通常會超過確實包含物件的單元格的梯度。這可能導致模型不穩定,導致訓練在早期就出現分歧。為了解決這個問題,對於不包含物件的盒子,我們**增加了邊界框座標預測的損失,並減少了置信度預測的損失。**我們使用兩個引數λcoord和λnoobj來完成此操作,設定λcoord= 5和λnoobj= 0.5。

​ 求和誤差也同樣可以加大大盒子和小盒子中的誤差。我們的誤差度量應該反映出大箱子中的小偏差比小箱子中的小。為了部分解決這個問題,我們直接預測邊界框寬度和高度的平方根,而不是寬度和高度。

​ YOLO預測每個網格單元有多個邊界框。在訓練時,我們只希望一個邊界框預測器對每個物件負責。**我們指定一個預測器只對與真實框具有最大IOU的預測物體負責。**這導致邊界框和預測器之間的特殊化。每個預測器都能更好地預測某些大小,寬高比或物件類別,從而提高整體召回率。

在訓練期間,我們優化了以下多部分損失函式:

image-20200702110322116

​ 1i表示物件在第i個網格中出現,1ij表示第j個邊界框預測器在第i個網格中對該預測負責。

​ 請注意,如果物件存在於該網格單元中,則損失函式僅懲罰分類錯誤。(僅此前面討論過條件類概率)。如果該預測器對真實框”負責“(即該網格單元中具有任何預測器的最高IOU),它也僅對邊界座標誤差進行懲罰。

​ 我們在PASCAL VOC 2007和2012的訓練和驗證資料集上訓練了大約135個epoch的網路。在PASCAL VOC 2012測試時,我們也使用VOC 2007測試資料用作訓練。在整個訓練過程中,我們使用的批大小為64,動量為0.9,衰減為0.0005

​ 我們的學習率時間表如下:首先,我們將學習率從10−3緩慢提高到10−2。如果我們以較高的學習率開始,我們的模型通常會由於不穩定的梯度而發散。我們繼續用10-2的訓練率訓練75個epoch,然後以10−3訓練率訓練30個epoch,最後以10−4訓練率訓練30個epoch。

​ 為避免過度擬合,我們使用了dropout和大量資料擴充。在第一個連線層之後,速率= 0.5的丟失層阻止了層之間的共同適應。對於資料增強,我們引入了高達原始影象大小20%的隨機縮放和翻轉。我們還在HSV顏色空間中隨機調整影象的曝光和飽和度達1.5倍。

2.3 推論

​ 就像在訓練中一樣,預測測試影象的檢測只需要一次網路評估。在PASCAL VOC上,網路預測每個影象98個邊界框和每個框的類概率。YOLO在測試時非常快,因為它只需要一個網路評估,不像基於分類器的方法。

​ 網格設計在邊界框預測中強制實施空間多樣性。通常很清楚一個物件落入哪個網格單元,並且網路僅為每個物件預測一個框。然而,一些大物體或多個單元邊界附近的物體可以被多個單元很好地定位非最大抑制可用於修復這些多個檢測。雖然對於R-CNN或DPM的效能並不重要,但非最大抑制在mAP中增加2-3%。

2.4 YOLO的侷限性

​ YOLO在邊界框預測上實加了強大的空間約束,因為**每個網格單元只預測兩個框,並且只能有一個類。**這個空間約束限制了我們的模型能夠預測的附近物體的數量。我們的網路很難檢測成群的小物體,比如成群的鳥。

​ 由於我們的模型從資料中學習預測邊界框,因此很難在新的或不尋常的寬高比或配置中的物件中進行泛化。我們的模型還使用相對粗糙的特徵來預測邊界框,因為我們的網路結構具有來自輸入影象的多個下采樣層

​ 最後,當我們訓練一個近似於檢測效能的損失函式時,我們的損失函式在小邊界框中處理誤差與大邊界框相同。大盒子中的小誤差通常是良性的,但小盒子中的小誤差對IOU的影響要大得多。我們的主要錯誤來源是錯誤的定位 。

3. 與其他檢測系統相比

​ 目標檢測室計算機視覺的一個核心問題。檢測管線通常從輸入影象中提取一組魯棒特徵開始(Haar [25],SIFT [23],HOG [4],卷積特徵[6])。然後,分類器或定位器在特徵空間中識別物體。這些分類器或定位器在整個影象中以滑動視窗方式執行,或者在影象中的某些區域子集上執行。我們將YOLO檢測系統與幾個頂級檢測框架進行了比較,突出了關鍵的相似性和差異。

Deformable parts models. 變形零件模型(DPM)使用滑動視窗方法進行物體檢測。DPM使用不相交的過程提取靜態特徵,對區域進行分類,預測高得分割槽域的邊界框等。我們的系統使用單個卷積神經網路替換了所有這些不同的部分。網路同時執行特徵提取,邊界框預測,非最大抑制和上下文推理。網路線上訓練和優化檢測任務的特徵,而不是靜態特徵。我們統一的架構實現了比DPM更快,更準確的模型。

R-CNN:R-CNN及其變體使用區域提議而不是滑動視窗來查詢影象中的物體。選擇性搜尋生成潛在的邊界框,卷積網路提取特徵,SVM對框進行評分,線性模型調整邊界框,非最大抑制消除重複檢測。這個複雜過程的每個階段必須獨立精確調整,使得系統非常慢,在測試時每個影象需要超過40秒。

​ YOLO與R-CNN有一些相似之處。每個網格單元提出潛在的邊界框,並使用卷積特徵對這些框進行評分。但是,我們的系統對網格單元提議設定了空間限制,這有助於減輕同一物件的多次檢測。我們的系統還提出了更少的邊界框,每個影象只有98個,而選擇性搜尋只有2000個。最後,我們的系統將這些單獨的元件組合成一個聯合優化的模型。

其他快速檢測器 Fast and Faster R-CNN專注於通過共享計算並使用神經網路來提議區域而不是選擇性搜尋來加快R-CNN框架[14] [27]。儘管它們在R-CNN上提供了速度和準確性方面的改進,但兩者仍然都缺乏實時效能。

​ 許多研究工作都集中在加速DPM過程 [30] [37] [5]上。它們可以加快HOG計算速度,使用級聯並將計算推入GPU。但是,只有30Hz DPM [30]實際上是實時執行的

​ YOLO並沒有嘗試優化大型檢測過程的各個元件,而是完全淘汰了該過程,並通過設計使其速度很快。像面孔或人這樣的單一類別的檢測器可以進行高度優化,因為它們只需要處理更少的變化。YOLO是一種通用檢測器,可學會同時檢測各種物體。

Deep MultiBox 與S-CNN不同,Szegedy等人訓練卷積神經網路來預測感興趣區域[8],而不是使用選擇性搜尋。MultiBox還可以通過用單個類預測替換置信度預測來執行單個物件檢測。但是,Multi-Box無法執行常規的物件檢測,並且仍然只是較大檢測管道中的一部分,需要進一步的影象塊分類。YOLO和MultiBox都使用卷積網路來預測影象中的邊界框,但是YOLO是一個完整的檢測系統。

​ **OverFeat.**Sermanet等訓練卷積神經網路執行定位並調整該定位器以執行檢測。OverFeat有效地執行滑動視窗檢測,但它仍然是不相交的系統。Over-Feat針對定位進行優化,而不是對檢測效能進行優化。像DPM一樣,定位器僅在進行預測時看到本地資訊。OverFeat無法推斷出全域性上下文,因此需要進行大量的後處理才能產生連貫的檢測結果。

MultiGrasp 我們的工作在設計上與Redmon等[26]在抓取檢測方面的工作相似。我們的邊界框預測方法基於MultiGrasp系統,可以進行迴歸分析。但是,抓取檢測比物件檢測要簡單得多。MultiGrasp只需要為包含一個物件的影象預測單個可抓握區域。不必估計物體的大小,位置或邊界或預測其類別,只需找到適合抓握的區域即可。YOLO預測影象中多個類的多個物件的邊界框和類概率。

4. 實驗

​ 首先,我們在PASCAL VOC 2007上比較YOLO和其它的實時檢測系統。為了理解YOLO和R-CNN變種之間的差異,我們探索了YOLO和R-CNN效能最高的版本之一Fast R-CNN[14]在VOC 2007上錯誤率。根據不同的誤差曲線,我們顯示YOLO可以用來重新評估Fast R-CNN檢測,並減少背景假陽性帶來的錯誤,從而顯著提升效能。我們還展示了在VOC 2012上的結果,並與目前最先進的方法比較了mAP。最後,在兩個藝術品資料集上我們顯示了YOLO可以比其它檢測器更好地泛化到新領域。

4.1 與其它實時系統的比較

​ 目標檢測方面的許多研究工作都集中在快速制定標準檢測流程上[5],[38],[31],[14],[17],[28]。然而,只有Sadeghi等實際上產生了一個實時執行的檢測系統(每秒30幀或更好)[31]。我們將YOLO與DPM的GPU實現進行了比較,其在30Hz或100Hz下執行。雖然其它的努力沒有達到實時性的里程碑,我們也比較了它們的相對mAP和速度來檢查目標檢測系統中精度——效能權衡。

​ 快速YOLO是PASCAL上最快的目標檢測方法;據我們所知,它是現有的最快的目標檢測器。具有 52.7 52.7% 52.7的mAP,實時檢測的精度是以前工作的兩倍以上。YOLO將mAP推到 63.4 63.4% 63.4的同時保持了實時效能。

​ 我們還使用VGG-16訓練YOLO。這個模型比YOLO更準確,但也比它慢得多。對於依賴於VGG-16的其它檢測系統來說,它是比較有用的,但由於它比實時的YOLO更慢,本文的其它部分將重點放在我們更快的模型上。

​ 最快的DPM可以在不犧牲太多mAP的情況下有效地加速DPM,但仍然會將實時效能降低2倍[38]。與神經網路方法相比,DPM相對低的檢測精度也受到限制。

​ 減去R的R-CNN用靜態邊界框提出取代選擇性搜尋[20]。雖然速度比R-CNN更快,但仍然不能實時,並且由於沒有好的邊界框提出,準確性受到了嚴重影響。

​ 快速R-CNN加快了R-CNN的分類階段,但是仍然依賴選擇性搜尋,每張影象需要花費大約2秒來生成邊界框提出。因此,它具有很高的mAP,但是0.5的fps仍離實時性很遠。

​ 最近更快的R-CNN用神經網路替代了選擇性搜尋來獲得邊界框,類似於Szegedy等[8]。在我們的測試中,他們最精確的模型達到了7fps,而較小的,不太精確的模型以18fps執行。VGG-16版本的Faster R-CNN要高出10mAP,但比YOLO慢6倍。Zeiler-Fergus的Faster R-CNN只比YOLO慢了2.5倍,但也不太準確。

image-20200702160649591

4.2 VOC 2007 誤差分析

​ 為了進一步檢查YOLO和最先進的檢測器之間的差異,我們詳細分析了VOC 2007的結果。我們將YOLO與Fast R-CNN進行比較,因為Fast R-CNN是PASCAL上效能最高的檢測器之一併且它的檢測程式碼是可公開得到的。

​ 我們使用Hoiem等人[19]的方法和工具。對於測試時的每個類別,我們看這個類別的前N個預測。每個預測或者是正確的,或者根據錯誤型別進行分類:

Correct:正確的類別且IOU> 0.5。

Localization:正確的類別,0.1 < IOU < 0.5。

Similar:類別相似,IOU > 0.1。

Other:類別錯誤,IOU > 0.1。

Background:任何IOU < 0.1的目標。

image-20200702175153208

​ 圖4顯示了在所有的20個類別上每種錯誤型別平均值的分解圖。

​ YOLO努力地正確定位目標。定位錯誤佔YOLO錯誤的大多數,比其它錯誤源加起來都多。Fast R-CNN使定位錯誤少得多,但背景錯誤更多。它的檢測的13.6%是不包含任何目標的誤報。Fast R-CNN比YOLO預測背景錯誤的可能性高出近3倍。

4.3 結合Fast R-CNN 和YOLO

​ YOLO比Fast R-CNN的背景誤檢要少得多。通過使用YOLO消除Fast R-CNN的背景檢測,我們獲得了顯著的效能提升。對於R-CNN預測的每個邊界框,我們都會檢查YOLO是否預測了類似的框。如果是這樣,我們根據YOLO預測的概率和兩個方框之間的重疊來提升該預測。

image-20200702180926625

**表2 :VOC 2007模型組合實驗。**我們研究了將各種模型與Fast R-CNN的最佳版本相結合的效果。其他版本的Fast R-CNN僅提供很小的好處,而YOLO提供了顯著的效能提升。

​ 最好的Fast R-CNN模型在VOC 2007測試集上達到了71.8%的mAP。當與YOLO結合時,其mAP增加了3.2%達到了75.0%。我們也嘗試將最好的Fast R-CNN模型與其它幾個版本的Fast R-CNN結合起來。這些模型組合產生了0.3到0.6%之間的小幅增加,詳見表2。

​ 來自YOLO的提升不僅僅是模型組合的副產品,因為組合不同版本的Fast R-CNN幾乎沒有什麼好處。相反,正是因為YOLO在測試時出現了各種各樣的錯誤,所以在提高Fast R-CNN的效能方面非常有效。

​ 遺憾的是,這個組合並沒有從YOLO的速度中受益,因為我們分別執行每個模型,然後結合結果。但是,由於YOLO速度如此之快,與Fast R-CNN相比,不會增加任何顯著的計算時間。

image-20200702183042884

4.4 VOC 2012 的結果

​ 在VOC 2012測試集上,YOLO得分為 57.9 57.9% 57.9的mAP。這低於現有的最新技術,接近於使用VGG-16的原始R-CNN,見表3。我們的系統與其最接近的競爭對手相比,在小目標上努力在bottle,sheep和tv/monitor等類別上,YOLO的得分比R-CNN或Feature Edit低8-10%。然而,在cattrain等其它類別上YOLO實現了更高的效能。

​ 我們聯合的Fast R-CNN + YOLO模型是效能最高的檢測方法之一。Fast R-CNN從與YOLO的組合中獲得了2.3%的提高,在公開排行榜上上移了5位。

4.5 泛化能力:藝術作品中的人物檢測

​ 用於目標檢測的學術資料集以相同分佈獲取訓練和測試資料。在現實世界的應用中,很難預測所有可能的用例,而且測試資料可能與系統之前看到的不同[3]。我們在Picasso資料集上[12]和People-Art資料集[3]上將YOLO與其它的檢測系統進行比較,這兩個資料集用於測試藝術品中的人物檢測。

image-20200702184704139

​ 圖5顯示了YOLO與其他檢測方法之間的比較效能。作為參考,我們在person上提供VOC 2007的檢測AP,其中所有模型僅在VOC 2007資料上訓練。Picasso資料集上的模型在VOC 2012上訓練,而People-Art資料集上的模型則在VOC 2010上訓練。

​ R-CNN在VOC 2007上有高AP。然而,當應用於藝術品時,R-CNN明顯下降。R-CNN使用選擇性搜尋來調整自然影象的邊界框提出。R-CNN中的分類器步驟只能看到小區域,並且需要很好的邊界框提出。

​ DPM在應用於藝術品時保持了其AP。之前的工作認為DPM表現良好,因為它具有目標形狀和佈局的強大空間模型。雖然DPM不會像R-CNN那樣退化,但它開始時的AP較低。

​ YOLO在VOC 2007上有很好的效能,在應用於藝術品時其AP下降低於其它方法。像DPM一樣,YOLO建模目標的大小和形狀,以及目標和目標通常出現的位置之間的關係。藝術品和自然影象在畫素級別上有很大不同,但是它們在目標的大小和形狀方面是相似的,因此YOLO仍然可以預測好的邊界框和檢測結果。

5. 現實環境下的實時檢測

​ YOLO是一種快速,精確的目標檢測器,非常適合計算機視覺應用。我們將YOLO連線到網路攝像頭,並驗證它是否能保持實時效能,包括從攝像頭獲取影象並顯示檢測結果的時間。

​ 由此產生的系統是互動式和參與式的。雖然YOLO單獨處理影象,但當連線到網路攝像頭時,其功能類似於跟蹤系統,可在目標移動和外觀變化時檢測目標。系統演示和原始碼可以在我們的專案網站上找到:http://pjreddie.com/yolo/

image-20200702195751922

6. 結論

​ 我們介紹了YOLO,一種統一的目標檢測模型。我們的模型構建簡單,可以直接在整張影象上進行訓練。與基於分類器的方法不同,YOLO直接在對應檢測效能的損失函式上訓練,並且整個模型聯合訓練。

​ Fast YOLO是文獻中最快的通用目的的目標檢測器,YOLO推動了實時目標檢測的最新技術。YOLO還很好地泛化到新領域,使其成為依賴快速,魯棒的目標檢測應用的理想選擇。