Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

阿新 • • 發佈：2021-07-20

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

2021-07-2008:58:37

Paper: cvpr2021

Code:https://github.com/google-research-datasets/conceptual-12m

1. Background and Motivation:

當前 vision-language 的預訓練模型大行其道，如何獲取海量的 image-language 資料對成了一個棘手的問題。當前演算法一般採用多個公共資料集構成幾百萬級別的語料庫。但是這些資料，作者認為還不夠，無法較好的學習長尾視覺概念。通過放寬過濾網上影象文字資料的條件，使得最終收穫的影象更多，達到更高的召回率。作者給出的案例如下所示：

此外，作者在該資料集上進行了產生式和匹配任務的學習。如下圖所示，一個是 image captioning，另外一個是影象文字匹配。並在多個下游任務上進行了實驗，如表格2所示。

2. Input Representation：

作者採用了 graph-RISE 的方法來提取整張影象的特徵，在 visual Genome 上訓練 faster RCNN，骨幹網路為 ResNet101。現在 JFT 資料集上進行訓練，然後在 ImageNet 上進行微調。選擇前 16個 box 及其特徵。利用 Google 的 API 演算法，預測得到 16 個影象標籤，將其當做文字輸入。這些全域性，區域性，和標籤特徵，一起被當做是一個 1+16+16 的向量，作為模型的底層特徵。

Stay Hungry，Stay Foolish ...

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Very Deep Convolutional Networks for Large-Scale Image Recognition-VGGNet解讀

Large Receptive Field Networks for High-Scale Image Super-Resolution，CVPRW 2018

2020最強拼接綜述—《Image Matching from Handcrafted to Deep Features: A Survey》閱讀總結

BART: Denoising Sequence-to-Sequence Pre-training翻譯

論文筆記1：Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

《RETHINKING POSITIONAL ENCODING IN LANGUAGE PRE-TRAINING》TUPE論文復現

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

論文解讀（GCC）《GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training》

vue：指令（插值操作、指令（v-once、v-html、v-text、v-pre、v-cloak））

507 Mustache，v-once，v-html，v-text，v-pre，v-cloak

前端上傳前預覽檔案 image、text、json、video、audio

Maven打war包報錯：webxml attribute is required (or pre-existing WEB-INF/web.xml if executing in update)

前端上傳前預覽檔案 image、text、json、video、audio？

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ASP.NET Core名稱空間System.Text.Encodings.Web介紹

閱讀論文：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

如何通過配置檔案安裝web專案到iPhone上

Flutter web 環境配置&專案建立

[springboot 開發單體web shop] 4. Swagger生成Javadoc

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

相關推薦