good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval

Kolouju, Pranavi; Xing, Eric; Pless, Robert; Jacobs, Nathan; Stylianou, Abby

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.17871 (cs)

[Submitted on 22 Mar 2025]

Title:good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval

Authors:Pranavi Kolouju, Eric Xing, Robert Pless, Nathan Jacobs, Abby Stylianou

View PDF HTML (experimental)

Abstract:Composed image retrieval (CIR) enables users to search images using a reference image combined with textual modifications. Recent advances in vision-language models have improved CIR, but dataset limitations remain a barrier. Existing datasets often rely on simplistic, ambiguous, or insufficient manual annotations, hindering fine-grained retrieval. We introduce good4cir, a structured pipeline leveraging vision-language models to generate high-quality synthetic annotations. Our method involves: (1) extracting fine-grained object descriptions from query images, (2) generating comparable descriptions for target images, and (3) synthesizing textual instructions capturing meaningful transformations between images. This reduces hallucination, enhances modification diversity, and ensures object-level consistency. Applying our method improves existing datasets and enables creating new datasets across diverse domains. Results demonstrate improved retrieval accuracy for CIR models trained on our pipeline-generated datasets. We release our dataset construction framework to support further research in CIR and multi-modal retrieval.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2503.17871 [cs.CV]
	(or arXiv:2503.17871v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.17871

Submission history

From: Abby Stylianou [view email]
[v1] Sat, 22 Mar 2025 22:33:56 UTC (32,967 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators