12-in-1: Multi-Task Vision and Language Representation Learning
阿新 • • 發佈:2022-03-17
12-in-1: Multi-Task Vision and Language Representation Learning
2022-03-17 09:45:41
1. Background and Motivation:
本文提出了一種多工學習的方法,可以將不同 vision-language 任務放到一個模型中進行訓練。得到了更好的效能提升,所有任務的平均提升幅度為 2.05 個點。之所以這麼做,是因為雖然 vision-language 任務設定不同,但是均需要對影象或者文字有深入的理解才能完成的很好。因此,這些任務是可以共享模型的。在本文中,作者將 12 個不同資料集,共計 4 種任務,在 ViLBERT 的基礎上進行了多工聯合訓練。實驗結果表明,在 12 個任務中,11個任務均獲得了提升。此外,作者提到聯合的預訓練步驟,對於單個任務來說也是非常有效的提升精度的方式。
2.
==