VL-BEiT: Generative Vision-Language Pretraining

Bao, Hangbo; Wang, Wenhui; Dong, Li; Wei, Furu

Computer Science > Computer Vision and Pattern Recognition

arXiv:2206.01127 (cs)

[Submitted on 2 Jun 2022 (v1), last revised 3 Sep 2022 (this version, v2)]

Title:VL-BEiT: Generative Vision-Language Pretraining

Authors:Hangbo Bao, Wenhui Wang, Li Dong, Furu Wei

View PDF

Abstract:We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
Cite as:	arXiv:2206.01127 [cs.CV]
	(or arXiv:2206.01127v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2206.01127

Submission history

From: Li Dong [view email]
[v1] Thu, 2 Jun 2022 16:14:19 UTC (682 KB)
[v2] Sat, 3 Sep 2022 14:18:55 UTC (682 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:VL-BEiT: Generative Vision-Language Pretraining

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:VL-BEiT: Generative Vision-Language Pretraining

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators