1. 程式人生 > >Object Detection in Video with Spatiotemporal Sampling Networks

Object Detection in Video with Spatiotemporal Sampling Networks

iot 速度 alt pat 兩個 cti bject works detect

發表在ECCV2018上,提出一種用可變形卷積做特征對齊的方法。

技術分享圖片

  與FGFA十分相似,思想都是單幀不夠,多幀來湊,利用相鄰幀的特征來對當前幀進行增強,以此來達到更好的檢測效果。不同點在於FGFA是利用光流來對兩張圖片的特征進行對齊,

這篇文章采用的是可變形卷積來做特征對齊。

  首先將當前幀和相鄰幀經過一個特征共享的特征提取網絡得到各自的feature map,然後把兩個feature map在chanel為上拼接,接著做一個可變形卷積,在此過程中得到第一個offset,卷積

的結果作為第二個offset用於和臨近幀特征做可變形卷積,卷積結果作為對齊後的特征,之後按照FGFA一樣的方式進行加權求和,得到增強後的特征。同FGFA相比,這篇文章利用可變形卷積的方法

對相鄰兩幀的特征做了隱式對齊,雖然不如光流的方法那麽直觀,但是效果也還可以。根據文章的實驗結果,這種方法精度比FGFA高了0.1。但是沒有給出速度的比較,應該比FGFA略快一些,沒有用光流網絡。

Object Detection in Video with Spatiotemporal Sampling Networks