1. 程式人生 > 其它 >ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

2022-03-16 21:02:21

Paperhttp://proceedings.mlr.press/v139/jia21b/jia21b.pdf  

 

1. Background and Motivation

隨著深度學習逐步進入深水區,基於多模態大模型的預訓練技術開始逐漸吸引眾多研究者的關注。本文提到現有方法所得到的大型資料集,規模還不足,因此嘗試利用 CC3M 資料集的收集方式,得到海量的帶有噪聲的 image-text pair 資料。但是不像 CC3M 那樣採用嚴格的篩選方式得到較為乾淨的資料,作者僅採用簡單的過濾方式,得到了比 CC3M 大兩個數量級的資料集。作者的實驗表明,在這種帶有嚴重噪聲的資料上得到的模型,也可以在眾多工上取得不錯的效果。

 

為了訓練該模型,作者利用一個目標函式在一個共享的隱層對映空間來對齊視覺和語言表示,使用的是一個簡單地 dual-encoder 結構。類似的目標可以用於學習視覺-語義對映(visual-semantic embedding, VSE)。作者將其所得到的模型,定義為  ALIGN:A Large-scale ImaGe and Noisy-text embedding。影象和文字編碼器是通過一個對比損失來建模的,通過拉近匹配樣本的距離,而推遠非匹配樣本的距離。這也是自監督和監督表示學習常用的損失函式。這種對齊的影象和文字表示可以自然的適合跨模態匹配/檢索任務,並在對應的資料集上均得到了領先的精度。

 

 

2. A large-scale noisy image-text dataset

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==