【深度學習論文筆記】Deep Neural Networks for Object Detection
論文:<<Deep
Neural Networks for Object Detection>>
作者:Christian Szegedy Alexander Toshev Dumitru
Erhan
來源: Google
是否開放程式碼: 否
主要思想:利用DNN來做目標檢測,因為現在的CNN等深度學習在識別上面做的還挺好,但是在目標檢測上面,好像沒有特別突出的結果。目標檢測
= 目標識別 +目標定位;
本文中作者把目標檢測看做一個迴歸問題,迴歸目標視窗(BoundingBox)的位置,尋找一張圖片當中目標類別和目標出現的位置。
當前的目標檢測方法效果比較好的是
目標檢測最重要的問題:1.大小(解析度)
2.如何不滑動視窗來做(滑動視窗實在是太慢了)。
文章說明了:1. 基於DNN的迴歸不但可以學習有利於分類的特徵,同時它也能夠捕獲到目標的幾何資訊;
主要內容:
通過設計基於DNN的迴歸,它的輸出為二值化mask(掩碼?反正就是來表示目標的位置資訊),並且實現了從掩碼中提取檢測到的目標視窗,利用DNN的掩碼迴歸問題中,即考慮到了完整影象的多尺度問題,同時也考慮到了一些小數量的影象裁剪塊,然後以此精化;
在實現中,作者基於NIPS2012ImageNet那篇,直接把最後一層替換為迴歸層。
其它的基於DNN的檢測方法或多或少是基於區域性或者半區域性分類器來做的,這這篇文章中採用的是利用整幅影象作為輸入,然後通過位置迴歸來做的,這樣的方法顯然比滑動視窗的方法來說更加的高效;
對於存在的三個問題:1 .單個掩碼可能區分開那些相互靠近的目標,2.由於輸出大小的限制,產生的掩碼會比原始影象小很多,所以這樣就不能夠精確的定位,3.因為輸入是整張影象,一些小的圖片能夠影響到的輸入神經元很少,所以將導致不易識別;
1.為了解決第一個問題:目標相互靠近的情況:
作者生成多個掩碼,每個掩碼錶示著對應的完整的目標或者部分目標,他們使用一個網路來預測目標視窗掩碼,使用
==========================================
未完~~