1. 程式人生 > 其它 >Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

2021-07-2008:58:37

Paper: cvpr2021

Code:https://github.com/google-research-datasets/conceptual-12m

1. Background and Motivation:

當前 vision-language 的預訓練模型大行其道,如何獲取海量的 image-language 資料對成了一個棘手的問題。當前演算法一般採用多個公共資料集構成幾百萬級別的語料庫。但是這些資料,作者認為還不夠,無法較好的學習長尾視覺概念。通過放寬過濾網上影象文字資料的條件,使得最終收穫的影象更多,達到更高的召回率。作者給出的案例如下所示:

此外,作者在該資料集上進行了產生式和匹配任務的學習。如下圖所示,一個是 image captioning,另外一個是影象文字匹配。並在多個下游任務上進行了實驗,如表格2所示。

2. Input Representation

作者採用了 graph-RISE 的方法來提取整張影象的特徵,在 visual Genome 上訓練 faster RCNN,骨幹網路為 ResNet101。現在 JFT 資料集上進行訓練,然後在 ImageNet 上進行微調。選擇前 16個 box 及其特徵。利用 Google 的 API 演算法,預測得到 16 個影象標籤,將其當做文字輸入。這些全域性,區域性,和標籤特徵,一起被當做是一個 1+16+16 的向量,作為模型的底層特徵。

==

Stay Hungry,Stay Foolish ...