Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features

Evstafev, Evgenii

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.08170 (cs)

[Submitted on 14 Jan 2025]

Title:Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features

Authors:Evgenii Evstafev

View PDF

Abstract:This article introduces a benchmark designed to evaluate the capabilities of multimodal models in analyzing and interpreting images. The benchmark focuses on seven key visual aspects: main object, additional objects, background, detail, dominant colors, style, and viewpoint. A dataset of 14,580 images, generated from diverse text prompts, was used to assess the performance of seven leading multimodal models. These models were evaluated on their ability to accurately identify and describe each visual aspect, providing insights into their strengths and weaknesses for comprehensive image understanding. The findings of this benchmark have significant implications for the development and selection of multimodal models for various image analysis tasks.

Comments:	6 pages, 2 tables, 2 charts
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2501.08170 [cs.CV]
	(or arXiv:2501.08170v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.08170

Submission history

From: Evgenii Evstafev [view email]
[v1] Tue, 14 Jan 2025 14:50:57 UTC (545 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators