1. 程式人生 > 其它 >12-in-1: Multi-Task Vision and Language Representation Learning

12-in-1: Multi-Task Vision and Language Representation Learning

12-in-1: Multi-Task Vision and Language Representation Learning

2022-03-17 09:45:41

 

Paperhttps://openaccess.thecvf.com/content_CVPR_2020/papers/Lu_12-in-1_Multi-Task_Vision_and_Language_Representation_Learning_CVPR_2020_paper.pdf 

 

1. Background and Motivation

本文提出了一種多工學習的方法,可以將不同 vision-language 任務放到一個模型中進行訓練。得到了更好的效能提升,所有任務的平均提升幅度為 2.05 個點。之所以這麼做,是因為雖然 vision-language 任務設定不同,但是均需要對影象或者文字有深入的理解才能完成的很好。因此,這些任務是可以共享模型的。在本文中,作者將 12 個不同資料集,共計 4 種任務,在 ViLBERT 的基礎上進行了多工聯合訓練。實驗結果表明,在 12 個任務中,11個任務均獲得了提升。此外,作者提到聯合的預訓練步驟,對於單個任務來說也是非常有效的提升精度的方式。 

 

2. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==