多模態(RGB-D)——CIMDL
阿新 • • 發佈:2018-12-13
- 《Correlated and Individual Multi-Modal Deep Learning for RGB-D Object Recognition》 2016, Ziyan Wang,Jiwen Lu et al. CIMDL
作者提出了針對RGB-D物體識別的相關和個體多模態深度學習方法(CIMDL)。 1.網路結構: RGB-D,sharable and modalspecific information can be simultaneously and explicitly exploited. CIM Layer的設計有3個目的: 1)產生兩種模態相關聯的部分 2)提取兩種模態具有區分力部分的特徵 3)自主的學習相關和獨立部分的權重,為了特徵融合 本文采用ResNet作為基本的網路結構,單獨的對RGB和Depth進行訓練。 對於depth network,作者採用法向圖(surface normals)代替深度圖作為網路的輸入。
2.CIMDL Layer細節 其中Xi表示RGB-ResNet和SN-ResNet一個bact_size(N張圖片)倒數第二層輸出的啟用值; Qi和Vi表示(MxM)的特徵對映矩陣,轉變原始的特徵到modal-specific domain and the correlated domain;L表示輸出的類別。 多模態學習模型是利用RGB和Depth相關的特性,外加單獨模態的特性和調整特徵不同部分的權重來提高識別率。 模型中3個關鍵的特性: 1)一種多模態學習策略,自動的分解特徵進去相關部分和獨立部分。 2)確保相關部分和獨立部分的區分度和正交性 3)在資料驅動的方式學習不同部分的權重去提高識別表現 我們的目標是去學習具有區分力的特徵表示去達到兩個目的: 1)不同模態的一些資訊是共享的 2)一些特定模態的資訊是利用為每一個單獨的模態
3.演算法流程: 4.實驗結果:
小結: 加入了共性特徵約束和不同部分權重係數自主學習。