1. 程式人生 > >Faster RCNN 和SSD的常用trick

Faster RCNN 和SSD的常用trick

近期計劃對Faster RCNN、SSD的一系列trick進行總結。主要分為:框架結構上面的trick、引數設定上的trick、在文字檢測特定領域的trick。

首先,是對Faster RCNN、SSD原始框架上的一些改進。包括:

  1. 通過各種方式來增加上下文資訊輔助檢測。例如通過空間RNN來引入上下文資訊[80],通過放大faster rcnn的候選框來獲得上下文資訊[81][82][83],用dilation 卷積來獲得上下文[84][85],用global pooling來獲取上下文資訊[86],對每個候選框都加入全域性的分類結果來獲得上下文資訊[87]。Dssd[88]通過反捲積來利用SSD框架同一位置上高層感受野更大的特徵增強本層的特徵,來加入上下文資訊。
  2. 改進分類損失。Sheng Tang等人[85]提出要加入sink類來改善某些背景類容易錯分的情況, Tsung-Yi Lin等人[89]提出了focal loss,來改善單階段框架下,類別數目不匹配的情況。
  3. 訓練方式和樣本擴增。OHEM[90]通過線上困難樣本挖掘訓練了更有判別力分類分支網路。A-fast-rcnn[91]採用生成對抗式網路的訓練形式,線上產生訓練困難的有遮擋或形變的樣本。SSD[68]採用了豐富的資料擴增,包括映象、顏色畸變、尺度縮放和縱橫比縮放,極大提高了檢測效能。
  4. 增強特徵。Hypernet[92]把從高層到底層的多特徵融合,然後進行ROIpooling,獲得了更高的精度,FPN[93]通過反捲積網路,構建了每層都有相同特徵強度的特徵金字塔,對多尺度的目標都可以很好地處理。Jiannan Li [94]提出用生成對抗式網路式的訓練,將小目標通過ROIpooling得到的特徵逼近大目標ROIPooling提出的特徵。
  5. 改進proposal 產生方式。J Hosang [95]通過實驗表明,proposal方法的recall是影響檢測器的效能的決定因素之一。CRAFT[98]通過兩級的模型來回歸出更好的object proposal。
  6. 改進迴歸方式,Spyros Gidaris [97]提出視窗微調與多視窗投票。首先利用Fast R-CNN[64]系列框架中對視窗進行迴歸的這個過程,反覆迭代,然後用所有視窗投票,決定最終的目標類別與位置。

 

轉自:https://www.jianshu.com/p/70711a18f5f7?from=timeline&isappinstalled=0