Toward a Diffusion-Based Generalist for Dense Vision Tasks

Fan, Yue; Xian, Yongqin; Zhai, Xiaohua; Kolesnikov, Alexander; Naeem, Muhammad Ferjad; Schiele, Bernt; Tombari, Federico

Computer Science > Computer Vision and Pattern Recognition

arXiv:2407.00503 (cs)

[Submitted on 29 Jun 2024]

Title:Toward a Diffusion-Based Generalist for Dense Vision Tasks

Authors:Yue Fan, Yongqin Xian, Xiaohua Zhai, Alexander Kolesnikov, Muhammad Ferjad Naeem, Bernt Schiele, Federico Tombari

View PDF HTML (experimental)

Abstract:Building generalized models that can solve many computer vision tasks simultaneously is an intriguing direction. Recent works have shown image itself can be used as a natural interface for general-purpose visual perception and demonstrated inspiring results. In this paper, we explore diffusion-based vision generalists, where we unify different types of dense prediction tasks as conditional image generation and re-purpose pre-trained diffusion models for it. However, directly applying off-the-shelf latent diffusion models leads to a quantization issue. Thus, we propose to perform diffusion in pixel space and provide a recipe for finetuning pre-trained text-to-image diffusion models for dense vision tasks. In experiments, we evaluate our method on four different types of tasks and show competitive performance to the other vision generalists.

Comments:	Published at CVPR 2024 as a workshop paper
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2407.00503 [cs.CV]
	(or arXiv:2407.00503v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2407.00503

Submission history

From: Yue Fan [view email]
[v1] Sat, 29 Jun 2024 17:57:22 UTC (3,153 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Toward a Diffusion-Based Generalist for Dense Vision Tasks

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Toward a Diffusion-Based Generalist for Dense Vision Tasks

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators