VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization

Zhu, Dongsheng; Tang, Xunzhu; Han, Weidong; Lu, Jinghui; Zhao, Yukun; Xing, Guoliang; Wang, Junfeng; Yin, Dawei

Computer Science > Artificial Intelligence

arXiv:2402.07398 (cs)

[Submitted on 12 Feb 2024 (v1), last revised 20 Jun 2024 (this version, v3)]

Title:VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization

Authors:Dongsheng Zhu, Xunzhu Tang, Weidong Han, Jinghui Lu, Yukun Zhao, Guoliang Xing, Junfeng Wang, Dawei Yin

View PDF HTML (experimental)

Abstract:This paper presents VisLingInstruct, a novel approach to advancing Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show impressive zero-shot abilities in multi-modal tasks, but their performance depends heavily on the quality of instructions. VisLingInstruct tackles this by autonomously evaluating and optimizing instructional texts through In-Context Learning, improving the synergy between visual perception and linguistic expression in MMLMs. Alongside this instructional advancement, we have also optimized the visual feature extraction modules in MMLMs, further augmenting their responsiveness to textual content. Our comprehensive experiments on MMLMs, based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1% and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and HatefulMemes datasets. Our main code is available at this https URL.

Comments:	Accepted to NAACL2024 main conference
Subjects:	Artificial Intelligence (cs.AI)
Cite as:	arXiv:2402.07398 [cs.AI]
	(or arXiv:2402.07398v3 [cs.AI] for this version)
	https://doi.org/10.48550/arXiv.2402.07398

Submission history

From: Dongsheng Zhu [view email]
[v1] Mon, 12 Feb 2024 04:13:16 UTC (11,182 KB)
[v2] Thu, 14 Mar 2024 14:30:14 UTC (11,182 KB)
[v3] Thu, 20 Jun 2024 14:44:14 UTC (18,848 KB)

Computer Science > Artificial Intelligence

Title:VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Artificial Intelligence

Title:VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators