1. 程式人生 > 其它 >VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

2021-07-22 08:54:20

Paper:https://arxiv.org/pdf/2104.11178.pdf

1. Background and Motivation:

本文嘗試用一個共享的 backbone 來學習三個模態的特徵表達,並且是用 transformer 的框架,自監督的方式去學習。作者認為監督學習的自監督有如下兩個問題:

  1). 無法充分利用海量無標籤資料;

  2). CV 的眾多工中,獲得有標籤資料,是非常困難的。

因此,本文嘗試從無監督學習的角度,提出了 VATT 模型。

如上圖所示,更殘暴的是,作者直接讓三個模態共享同一個骨幹網路。實驗證明,與模態無關的骨幹網路可以取得與不同模態的骨幹網路,相似的結果。

==

Stay Hungry,Stay Foolish ...