Multimodal Autoregressive Pre-training of Large Vision Encoders

Fini, Enrico; Shukor, Mustafa; Li, Xiujun; Dufter, Philipp; Klein, Michal; Haldimann, David; Aitharaju, Sai; da Costa, Victor Guilherme Turrisi; Béthune, Louis; Gan, Zhe; Toshev, Alexander T; Eichner, Marcin; Nabi, Moin; Yang, Yinfei; Susskind, Joshua M.; El-Nouby, Alaaeldin

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.14402 (cs)

[Submitted on 21 Nov 2024]

Title:Multimodal Autoregressive Pre-training of Large Vision Encoders

Authors:Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby

View PDF

Abstract:We introduce a novel method for pre-training of large-scale vision encoders. Building on recent advancements in autoregressive pre-training of vision models, we extend this framework to a multimodal setting, i.e., images and text. In this paper, we present AIMV2, a family of generalist vision encoders characterized by a straightforward pre-training process, scalability, and remarkable performance across a range of downstream tasks. This is achieved by pairing the vision encoder with a multimodal decoder that autoregressively generates raw image patches and text tokens. Our encoders excel not only in multimodal evaluations but also in vision benchmarks such as localization, grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5% accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in multimodal image understanding across diverse settings.

Comments:	this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
Cite as:	arXiv:2411.14402 [cs.CV]
	(or arXiv:2411.14402v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.14402

Submission history

From: Alaaeldin El-Nouby [view email]
[v1] Thu, 21 Nov 2024 18:31:25 UTC (4,240 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Multimodal Autoregressive Pre-training of Large Vision Encoders

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Multimodal Autoregressive Pre-training of Large Vision Encoders

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators