Weakly Supervised Deep Detection Networks 學習筆記
Weakly Supervised Deep Detection Networks 詳細解讀
論文大致意思是通過影象級的標註資訊訓練網路達到目標檢測的目的,文中採用的方法如下圖所示:
abstract :提出一種弱監督的深度檢測架構,通過修改網路,只利用影象級別的標註,同時執行區域選擇和分類。
Introduction:1.有實驗證明訓練過的用於分類的CNN可能隱藏了很多關於檢測需要用到的資訊
2.方法概述:a.給定影象x,第一步是通過在CNN的卷積層之上插入SPP來有效地提取區域級描述符(x;R)。
b.接著,該網路從pooled region-level features中分支成兩個資料流(一個用來分類,一個用來識別)
3.MIL利用外觀模型(appearance model)去選擇候選區域,而本文使用的是獨立於識別分支的專用並行檢測分支選擇的候選區域 。所以能夠很好的避免弱監督學習常用的方法MIL的缺點即區域性最優
4.我們的雙流CNN可能和lin等人的雙線性架構有輕微的關聯,他們提出了一種“雙線性”結構,其中兩個並行網路流的輸出通過取相應空間位置的特徵向量的外積進行組合。作者指出,這種結構的靈感來自於人類視覺系統的腹側和背側流,一個側重於識別,另一個側重於定位。雖然我們的架構包含兩個這樣的流,相似性只是表面的。一個關鍵的區別是在Lin等人。這兩個流是完全對稱的,因此沒有理由相信一個流應該執行分類和另一個檢測;相反,在我們的方案中,檢測分支被明確地設計成比較區域,打破對稱。還要注意,林等人不執行WSD,也不評估物件檢測效能。
5.本文僅僅使用了image-level labels,region proposals 和 BP
Related Work:有關弱監督的研究分為兩條路線,其一,針對MIL的非凸優化問題,有好幾篇論文對初始化和正則化提出改進,其二基於識別影象部分之間的相似性的想法。最近有一批研究學者提出了弱監督定位原則,以改進CNN的分類效能(不提供影象中物體位置的任何標註)
Method
1.預訓練網路(採用只有影象級標註的資料集訓練一個CNN)
2.WSDDN:用SPP代替最後一個卷積塊的pooling層,有關SPP介紹 ,SPP中
【note】在接下來的分流開始之前先介紹softmax函式和交叉熵損失函式
softmax函式如下:
通常,對使用了 softmax
層的多分類神經網路,我們在最後一層使用的損失函式為交叉熵,它的形式如下
3.分類資料流:使用的是softmax分類器,即計算每個區域中各個類別的概率
4.檢測資料流:還是使用softmax分類器,即計算每個類別中各個區域的概率
5.兩個資料流的合併:採用內積的方式進行合併,進行標準非極大值抑制的方法(去除IOU>40%的區域)來獲得最終的影象中的類特定檢測的列表。與雙線性結構的三點不同:其一利用不同的softmax分類器來打破兩個流的對稱性,其二,本文使用的是內積,而雙線性結構使用的是外積,第三個不同之處在於,分數class(xcr)det(xdr)是針對特定影象區域r計算的,而不是針對網格上的一組固定的影象位置計算的。
6.影象水平分類得分。 到目前為止,WSDDN已經計算了區域級分數x r
7.有關損失函式:
仔細觀察發現這個函式是上面【note】部分的交叉熵損失函式的變體。
8.空間懲罰項:由於我們沒有groundtruth ,不能像fast rcnn 一樣根據IOU 50%來選取排除定位框。因此我們遵循軟規則化策略,該策略在訓練期間懲罰最高得分割槽域和具有至少60%IoU的區域之間的特徵圖差異
實驗部分(略)