Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

Rang, Miao; Bi, Zhenni; Liu, Chuanjian; Tang, Yehui; Han, Kai; Wang, Yunhe

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.04322 (cs)

[Submitted on 8 Jan 2025]

Title:Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

Authors:Miao Rang, Zhenni Bi, Chuanjian Liu, Yehui Tang, Kai Han, Yunhe Wang

View PDF HTML (experimental)

Abstract:Multimodal vision language models (VLMs) have made significant progress with the support of continuously increasing model sizes and data volumes. Running VLMs on edge devices has become a challenge for their widespread application. There are several efficient VLM efforts, but they often sacrifice linguistic capabilities to enhance multimodal abilities, or require extensive training. To address this quandary,we introduce the innovative framework of Efficient Vision Language Models with Elastic Visual Experts (Eve). By strategically incorporating adaptable visual expertise at multiple stages of training, Eve strikes a balance between preserving linguistic abilities and augmenting multimodal capabilities. This balanced approach results in a versatile model with only 1.8B parameters that delivers significant improvements in both multimodal and linguistic tasks. Notably, in configurations below 3B parameters, Eve distinctly outperforms in language benchmarks and achieves state-of-the-art results 68.87% in VLM Benchmarks. Additionally, its multimodal accuracy outstrips that of the larger 7B LLaVA-1.5 model.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2501.04322 [cs.CV]
	(or arXiv:2501.04322v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.04322

Submission history

From: Miao Rang [view email]
[v1] Wed, 8 Jan 2025 07:42:54 UTC (1,843 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators