跨模態行人重識別:RGB-Infrared Cross-Modality Person Re-Identification(2017 ICCV)
RGB-Infrared Cross-Modality Person Re-Identification
文章目錄
Abstract
1、提出了RGB-IR跨模態ReID問題。
2、貢獻了名為SYSU-MM01的多模態資料集(包括來自6個攝像機的491個身份的RGB和IR影象,總共提供287,628個RGB影象和15,792張IR影象)。
3、評估了三個常用的神經網路結構:單流、雙流和不對稱FC層。
一、Introduction
行人重識別(ReID)是視訊監控的重要領域,在該領域已經提出了許多有效的方法,其中包括特徵學習、距離度量學習、端到端學習等方法。但大多數方法都應用於RGB-RGB單模態下,但在光纖不佳(夜晚)情況下,RGB影象變得毫無意義,因此有必要研究涵蓋24小時的RGB-IR交叉模態行人重識別任務。
RGB-IR的ReID是一個非常有挑戰性的任務。首先RGB和IR在影象構成上差異巨大,RGB影象具有三個通道,包含顏色資訊,而IR只有一個通道,其中包含紅外資訊,因此可以將它們視作異構資料。其次,**從成像原理上看,RGB和IR影象的波長範圍是不同的,所以僅僅通過顏色資訊無法很好地進行分類和匹配。此外,在單模態下的行人影象也具有姿態、光照、攝像機視角不同帶來的類內差異。**儘管有一些使用IR影象的ReID方法,例如Jungling等,但他們僅考慮針對IR的單模態匹配,而沒有考慮跨模態任務。
對於跨模態ReID任務,特定於域的網路模型構建和如何提取兩模態的共性特徵匹配十分重要。大量的實驗證明了深度零填充的有效性,經過比較,它優於手工特徵提取方法和傳統的深度學習網路。
二、SYSU-MM01
(1)SYSU-MM01包含6個攝像機捕獲的行人影象,其中2個IR攝像機(cam3,6),4個RGB攝像機(cam1,2,4,5)。
對於每個行人,至少有400個不同姿態和視角的RGB影象和IR影象。cam1,2,3為indoor,cam4,5,6為outdoor。發現IR影象丟失了顏色資訊,並且由於單通道緣故,丟失了大量紋理資訊。
(2)SYSU-MM01資料集中有491個ID,其中296個ID用於訓練,99個用於驗證,96個用於測試。在訓練過程中,296個ID的所有影象都得到應用。在測試過程中,RGB影象作為gallery,IR影象作為query。
(3)設計了兩種模式,All Search和Indoor;對於All Search模式,RGB攝像機下cam1,2,4,5用於gallery,而IR攝像機下cam3,6用於query,對於Indoor模式,cam1,2用於gallery(不包括室外的cam4,5),cam3,6用於query,Indoor挑戰性略小。給定query影象,通過計算query影象與gallery影象之間的相似度來進行匹配,請注意,匹配是在不同位置的相機之間進行的,例如cam2和cam3都屬於indoor,因此cam3的query將跳過cam2的gallery影象。計算相似度後,我們可以根據相似度的降序獲得排名列表。效能評估指標採用CMC和mAP,將上述評估重複10次,最後計算出平均效能。
三、跨模態網路比較
綠色表示共享引數,紅色和藍色代表特定引數。
1、One-stream:只有一個輸入,如圖中第一個網路所示,所有引數在網路中共享。
2、Two-stream:有兩個輸入,分別對應RGB和IR影象,在較淺的層中,網路的引數是對應於特定域的,而在更深的層中,使用共享引數。
3、非對稱FC層:該設計共享除最後FC層以外的所有引數,假設不同域的特徵提取可以採用相同引數,並且在特徵級別可以實現域自適應。
4、Deep Zero-Padding:使用單流網路,所有影象變為2通道,其中,RGB影象先轉為灰度放置在通道1,然後零填充放置在通道2;對於IR影象,將其放置在通道2,將零填充放置在通道1。
作者對單流和雙流網路進行了分析,並將零填充網路應用到單流網路中,通過設定節點引數的方式對節點進行選擇性失活,如圖所示,綠色節點表示學到了共享特徵。
四、結論
分析:通過RGB灰度化的方式可以一定程度上消除顏色資訊帶來的影響,但是全部灰度化是把雙刃劍,零填充實際上並未完全利用到所有資訊,葉茫等人的論文認為顏色資訊同樣對匹配起到好的作用。