1. 程式人生 > 實用技巧 >RGB-D Salient Object Detection:綜述論文筆記

RGB-D Salient Object Detection:綜述論文筆記

RGB-D Salient Object Detection:綜述論文筆記

顯著性目標檢測致力於給定區域內最重要的視覺性目標。SOD在真實世界的應用範圍內起著關鍵性的作用,例如立體匹配、影象理解、顯著性檢測、行為感知、視訊探測和分割、語義分割、視訊影象分割、目標追蹤、行人檢測、偽裝目標檢測等等。儘管在過去的幾十年裡SOD領域已經有了很大的進展,在各種挑戰因素下還有著提升的空間,例如在場景中有著複雜的背景或者不同的燈光條件。一個解決這些困難的辦法是使用深度圖,提供RGB影象的補充資訊並且由於深度感測器的巨大實用性使得特徵已經變得更容易捕捉。
在這裡插入圖片描述

最近,基於RGB-D的SOD得到了廣泛的關注並且各種各樣的模型得到了發展。早期基於RGB-D的SOD模型傾向於提取手工特徵然後混合RGB影象和深度圖。第一個致力於RGB-D的SOD模型使用了高斯混合模型模擬出誘導性深度顯著特徵的分佈規律。Ciptadi提取出3D分佈和形狀特徵從深度測量值中。此外幾個方法在不同的區域使用不同的深度測量出了深度的差異性。儘管使用傳統模型提取手工特徵有一定的效益但是仍然受制於低水平特徵的泛化能力和在複雜場景中對高水平推論的需求。為了解決這些限制,基於RGB-D的SOD深度學習模型得到了發展,展示了顯著的提高表現。

在過去的幾十年裡,許多基於手工特徵的RGB-D模型已經得到了發展,但是手工特徵的表達能力有限,從而導致傳統的模型在顯著性目標檢測任務的表現不是很好,為了解決這個問題,一些研究已經轉向深度神經網路在RGB-D資料上的應用。這些模型可以學習更高層次的特徵,從而探索複雜的RGB影象和深度資訊,來提高SOD的效能。

Fusion-wise Models:對於基於RGB-D的SOD模型,最重要的是高效融合RGB圖和深度圖,現存的融合策略一共包含三種:1早期融合2多尺度融合3晚期融合
早期融合:有兩種方法(1)RGB影象和深度影象綜合為一個四通道的輸入。(2)分別進入不同的網路,然後將低水平的輸出值再融合

晚期融合也分類為兩種:(1)兩個網路分別學習出高階特徵的資料,然後連線1起來形成最終的顯著性圖。(2)兩個並行的網路分別生成顯著性圖,然後將生成的顯著性圖融合成最終的顯著性圖
多尺度融合:為了高效的利用RGB圖深度圖,一些方法提出了多尺度融合策略。第一個方法是學習交叉特徵,然後將他們融合為一個特徵學習網路。如Chen等人提出的MMCI網路就是將交叉多層資訊引入多層網路中,獲得額外的梯度從而彌補低階特徵和高階特徵的不足。第二類是融合不同的深度圖和RGB圖在不同的網路層中,然後將他們輸入一個解碼網路,跳過連結獲得最終的顯著性檢測圖。如ICNet、DPANet、BiANet、JL-DCF、BBS-Net。
在這裡插入圖片描述

Single-stream Models:這些模型通常融合RGB影象和深度資訊到輸入通道或者特徵學習部分。MDSF就是利用多尺度有識別力的顯著圖融合骨架作為SOD模型,計算了三層的四種特徵,然後融合得到最終的顯著性圖。
Multi-stream Models:模型是由處理RGB影象和深度線索的多個獨立分支組成,通常會產生不同的高階特徵或顯著性圖,然後在中間階段或結束時將它們合併。
Attention-aware Models:現存的基於RGB-D的SOD模型通常對待所有提取出來的特徵進行平均處理,而忽略了不同的區域有不同的貢獻對於最終的預測圖不同。這些方法很容易被凌亂的背景所影響。此外,一些方法要麼認為RGB影象和深度影象具有相同的狀態,要麼就是過度依賴深度資訊。這使他們不能考慮不同域(RGB影象或深度線索)的重要性。為了克服這一點,有幾種方法引入注意機制來衡量不同地區或領域的重要性。

挑戰與發展方向:
1目前大部分方法是直接將深度圖和RGB圖片融合而不考慮低質量深度圖對結果的影響。可以考慮對深度圖進行加權從而降低低質量深度圖對檢測結果的影響。
2由於採集裝置的問題導致有些深度圖不夠完善,可以嘗試一個新的方向,即不完善的深度圖情況下SOD任務的演算法。此外,深度估計為恢復高質量深度提供了有效的解決方案,克服了低質量深度圖的影響。多種深度估計方法已經被開發出來,這些方法可以被引入到基於RGB-D的SOD任務中,以提高效能
3、加入對抗神經網路來提高檢測的效率
4、開發注意力機制在SOD任務中的作用
5、將無監督或弱監督模型引入SOD任務中
6、影象集還不夠完善,需要收集更多的影象,例如道路標誌的任務。
7、模型的壓縮與移植,從演算法到真實場景的應用。
8、擴充套件到RGB-T,利用紅外影象與RGB影象的融合從而獲得更高效的效能。
目前表現比較好的網路模型有:
JL-DCF[8]、UC-Net[9]、S2MA[6]、D3Net[3]、SSF[4]、A2dele[5]、ICNet[7]
在這裡插入圖片描述
論文:
[3] Deng-Ping Fan, Zheng Lin, Zhao Zhang, Menglong Zhu, and Ming-Ming Cheng, “Rethinking RGB-D salient object detection: Models, data sets, and large-scale benchmarks,” IEEE Transactions on Neural Networks and Learning Systems, 2020.
[4] Miao Zhang, Weisong Ren, Yongri Piao, Zhengkun Rong, and Huchuan Lu, “Select, supplement and focus for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[5] Yongri Piao, Zhengkun Rong, Miao Zhang, Weisong Ren, and Huchuan Lu, “A2dele: Adaptive and attentive depth distiller for efficient RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[6] Nian Liu, Ni Zhang, and Junwei Han, “Learning selective self-mutual attention for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[7] Gongyang Li, Zhi Liu, and Haibin Ling, “Icnet: Information conversion network for RGB-D based salient object detection,” IEEE Transactions on Image Processing, vol. 29, pp. 4873–4884, 2020.
[8] Keren Fu, Deng-Ping Fan, Ge-Peng Ji, and Qijun Zhao, “Jl-dcf: Joint learning and densely-cooperative fusion framework for RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[9] Jing Zhang, Deng-Ping Fan, Yuchao Dai, Saeed Anwar, Fatemeh Sadat Saleh, Tong Zhang, and Nick Barnes, “Uc-net: uncertainty inspired rgb-d saliency detection via conditional variational autoencoders,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
專案下載連結: