Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks

Franklin, Leo; Boonmee, Apiradee; Wongsuwan, Kritsada

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.02527 (cs)

[Submitted on 5 Jan 2025]

Title:Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks

Authors:Leo Franklin, Apiradee Boonmee, Kritsada Wongsuwan

View PDF HTML (experimental)

Abstract:Vision generation remains a challenging frontier in artificial intelligence, requiring seamless integration of visual understanding and generative capabilities. In this paper, we propose a novel framework, Vision-Driven Prompt Optimization (VDPO), that leverages Large Language Models (LLMs) to dynamically generate textual prompts from visual inputs, guiding high-fidelity image synthesis. VDPO combines a visual embedding prompt tuner, a textual instruction generator, and a vision generation module to achieve state-of-the-art performance in diverse vision generation tasks. Extensive experiments on benchmarks such as COCO and Sketchy demonstrate that VDPO consistently outperforms existing methods, achieving significant improvements in FID, LPIPS, and BLEU/CIDEr scores. Additional analyses reveal the scalability, robustness, and generalization capabilities of VDPO, making it a versatile solution for in-domain and out-of-domain tasks. Human evaluations further validate the practical superiority of VDPO in generating visually appealing and semantically coherent outputs.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2501.02527 [cs.CV]
	(or arXiv:2501.02527v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.02527

Submission history

From: Apiradee Boonmee [view email]
[v1] Sun, 5 Jan 2025 13:01:47 UTC (83 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators