MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

Xie, Liuyue; Wei, George Z.; Kuthiala, Avik; Zheng, Ce; Bal, Ananya; Dabhi, Mosam; Wen, Liting; Rustagi, Taru; Lai, Ethan; Khyalia, Sushil; Choudhury, Rohan; Ziyadi, Morteza; Zhang, Xu; Yang, Hao; Jeni, László A.

Computer Science > Sound

arXiv:2503.21699 (cs)

[Submitted on 27 Mar 2025]

Title:MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

Authors:Liuyue Xie, George Z. Wei, Avik Kuthiala, Ce Zheng, Ananya Bal, Mosam Dabhi, Liting Wen, Taru Rustagi, Ethan Lai, Sushil Khyalia, Rohan Choudhury, Morteza Ziyadi, Xu Zhang, Hao Yang, László A. Jeni

View PDF HTML (experimental)

Abstract:Frontier models have either been language-only or have primarily focused on vision and language modalities. Although recent advancements in models with vision and audio understanding capabilities have shown substantial progress, the field lacks a standardized evaluation framework for thoroughly assessing their cross-modality perception performance. We introduce MAVERIX~(Multimodal Audio-Visual Evaluation Reasoning IndeX), a novel benchmark with 700 videos and 2,556 questions explicitly designed to evaluate multimodal models through tasks that necessitate close integration of video and audio information. MAVERIX uniquely provides models with audiovisual tasks, closely mimicking the multimodal perceptual experiences available to humans during inference and decision-making processes. To our knowledge, MAVERIX is the first benchmark aimed explicitly at assessing comprehensive audiovisual integration. Experiments with state-of-the-art models, including Gemini 1.5 Pro and o1, show performance approaching human levels (around 70% accuracy), while human experts reach near-ceiling performance (95.1%). With standardized evaluation protocols, a rigorously annotated pipeline, and a public toolkit, MAVERIX establishes a challenging testbed for advancing audiovisual multimodal intelligence.

Subjects:	Sound (cs.SD); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2503.21699 [cs.SD]
	(or arXiv:2503.21699v1 [cs.SD] for this version)
	https://doi.org/10.48550/arXiv.2503.21699

Submission history

From: Liuyue Xie [view email]
[v1] Thu, 27 Mar 2025 17:04:33 UTC (28,326 KB)

Computer Science > Sound

Title:MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Sound

Title:MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators