IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval

Liu, Bangwei; Bao, Yicheng; Lin, Shaohui; Wang, Xuhong; Tan, Xin; Wang, Yingchun; Xie, Yuan; Lu, Chaochao

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.00954 (cs)

[Submitted on 1 Apr 2025]

Title:IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval

Authors:Bangwei Liu, Yicheng Bao, Shaohui Lin, Xuhong Wang, Xin Tan, Yingchun Wang, Yuan Xie, Chaochao Lu

View PDF HTML (experimental)

Abstract:Multimodal retrieval systems are becoming increasingly vital for cutting-edge AI technologies, such as embodied AI and AI-driven digital content industries. However, current multimodal retrieval tasks lack sufficient complexity and demonstrate limited practical application value. It spires us to design Instance-Driven Multimodal Image Retrieval (IDMR), a novel task that requires models to retrieve images containing the same instance as a query image while matching a text-described scenario. Unlike existing retrieval tasks focused on global image similarity or category-level matching, IDMR demands fine-grained instance-level consistency across diverse contexts. To benchmark this capability, we develop IDMR-bench using real-world object tracking and first-person video data. Addressing the scarcity of training data, we propose a cross-domain synthesis method that creates 557K training samples by cropping objects from standard detection datasets. Our Multimodal Large Language Model (MLLM) based retrieval model, trained on 1.2M samples, outperforms state-of-the-art approaches on both traditional benchmarks and our zero-shot IDMR-bench. Experimental results demonstrate previous models' limitations in instance-aware retrieval and highlight the potential of MLLM for advanced retrieval applications. The whole training dataset, codes and models, with wide ranges of sizes, are available at this https URL.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2504.00954 [cs.CV]
	(or arXiv:2504.00954v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.00954

Submission history

From: Bangwei Liu [view email]
[v1] Tue, 1 Apr 2025 16:47:20 UTC (22,549 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators