1. 程式人生 > 其它 >論文閱讀:《What Makes Training Multi-Modal Classification Networks Hard》

論文閱讀:《What Makes Training Multi-Modal Classification Networks Hard》

標題:是什麼讓訓練多模態分類網路變得困難?

來源:CVPR 2020[https://arxiv.org/abs/1905.12681]

程式碼:暫無


摘要:

  考慮在具有多個輸入模態的任務上,對多模態網路和單模態網路進行端到端訓練:理論上多模態網路接收更多資訊,因此它應該等同於或優於單模態網路。然而,實驗中觀察到相反的情況:最好的單模態網路往往優於多模態網路。這一觀察結果在不同的模態組合以及視訊分類的不同任務和基準上是一致的。

  本文指出了造成這種效能下降的兩個主要原因:

  • 多模態網路由於其容量的增加而常常容易出現過擬合。
  • 不同模態的過擬合和泛化速度不同,採用單一優化策略聯合訓練是次優的。

  對此,文中提出了一種梯度混合(Gradient-Blending)的技術來解決這兩個問題,該技術根據模型的過擬合行為來計算模型的最優混合。實驗證明,梯度混合可以避免過擬合,並在各種任務上優於廣泛使用的基線,包括人類動作識別,以自我為中心的動作識別和聲學事件檢測等。

 


背景:

  2.1 多模態融合的方法:

  • 前端融合:將多個獨立的資料集融合成一個單一的特徵向量,然後輸入到機器學習分類器中。由於多模態資料的前端融合往往無法充分利用多個模態資料間的互補性,且前端融合的原始資料通常包含大量的冗餘資訊。因此,多模態前端融合方法常常與特徵提取方法相結合以剔除冗餘資訊,如主成分分析(PCA)、最大相關最小冗餘演算法(mRMR)、自動解碼器(Autoencoders)等。
  • 後端融合:將不同模態資料分別訓練好的分類器輸出打分(決策)進行融合。這樣做的好處是,融合模型的錯誤來自不同的分類器,而來自不同分類器的錯誤往往互不相關、互不影響,不會造成錯誤的進一步累加。常見的後端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、 貝葉斯規則融合(Bayes'rule based)以及整合學習(ensemble learning)等。
  • 中間融合:將不同的模態資料先轉化為高維特徵表達,再於模型的中間層進行融合。以神經網路為例,中間融合首先利用神經網路將原始資料轉化成高維特徵表達,然後獲取不同模態資料在高維空間上的共性。中間融合方法的一大優勢是可以靈活的選擇融合的位置。

    2.2 多模態融合中存在的問題

    針對任務:late-fusion 多模態神經網路

    訓練端到端網路來解決一個任務,其中單模態解決方案是多模態網路中可用解決方案的嚴格子集;理論上,一個最優的的多模態模型應該總是優於最佳的單模態模型。然而,實驗結果上存在一些問題:

 

  領域:視訊分類

  模態:RGB 光流OF 音訊Audio

  資料集:視訊理解中的行為資料集Kinetics

  問題:多模態網路使用與單模態相同的架構,在預測之前通過concat在最後一層進行後期融合,從結果可以看出,單模態的效果要好於多模態。

  可能的問題:

  • 由於引數數量的增加造成的過擬合。
  • 不同的模態有不同的過擬合和不同速率的泛化能力。

  2.3 傳統嘗試優化的解決方案:

  • 考慮諸如dropout、pre-training或early stop等方法,以減少過擬合。
  • late-fusion模型的架構缺陷,改進:mid-fusion、Squeeze-and-Excitation gates(SE-gate)、 Non-Local gates(NL-gate)

  相對於單模態RGB的結果,避免過擬合的各種方法都不能解決問題,各種融合架構也無法取得優異的效能。

  本文工作:

  • 通過實證論證了過擬合在多模態網路聯合訓練中的重要性,並找出了導致該問題的兩個原因。而且該問題與架構無關:不同的融合技術也會遇到同樣的過擬合問題。

  • 提出了一個度量來定量地理解問題:過度擬合泛化比 (OGR)

  • 提出了一種新的多模態訓練方案,通過多個監督訊號的最佳混合最小化了 OGR。這種 Gradient- Blending方法在消融方面取得了顯著的進步,並通過結合音訊和視覺訊號在包括 Kinetics、EPIC-Kitchen 和 AudioSet 在內的基準測試中實現了最先進的 (SoTA) 精度。


 通過Gradient-Blending進行多模態訓練

 


 實驗

  資料集:Kinetics、MiniSports、MiniAudioSet

  特徵:RGB、optical flow、audio

Part1:各個模態的過擬合問題

音視訊混合模型比視訊模型更容易過擬合,且在驗證集損失方面不如視訊模型。

Part2:對比單模態方法

 

Gradient-Blending優於單模態方法(僅RGB),online效果最好

Part3:運用在不同的梯度下降演算法中

Gradient-Blending的效果優於其他

Part4:不同的多模態問題上的測試

Part5:不同的多模態融合架構上的測試

last fusion:Gradient-Blending提供了0.8%的改善(top-1從72.8%提高到73.6%)

低秩多模態融合(LMF):Gradient-Blending提供4.2%的改進(top-1從69.3%提高到73.5%)

證明了Gradient-Blending可以應用於除last fusion之外的其他特徵融合策略,以及concat連線融合之外的其他融合架構。


 應用:

參考:

https://zhuanlan.zhihu.com/p/137104163

https://zhuanlan.zhihu.com/p/125754197

 CVPR 2020——ImVoteNet:multi-tower architecture正是使用了本文介紹的gradient blending training strategy來訓練