Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks

Quercia, Alessio; Yildiz, Erenus; Cao, Zhuo; Krajsek, Kai; Morrison, Abigail; Assent, Ira; Scharr, Hanno

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.12824 (cs)

[Submitted on 22 Jan 2025]

Title:Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks

Authors:Alessio Quercia, Erenus Yildiz, Zhuo Cao, Kai Krajsek, Abigail Morrison, Ira Assent, Hanno Scharr

View PDF

Abstract:Monocular depth estimation (MDE) is a challenging task in computer vision, often hindered by the cost and scarcity of high-quality labeled datasets. We tackle this challenge using auxiliary datasets from related vision tasks for an alternating training scheme with a shared decoder built on top of a pre-trained vision foundation model, while giving a higher weight to MDE. Through extensive experiments we demonstrate the benefits of incorporating various in-domain auxiliary datasets and tasks to improve MDE quality on average by ~11%. Our experimental analysis shows that auxiliary tasks have different impacts, confirming the importance of task selection, highlighting that quality gains are not achieved by merely adding data. Remarkably, our study reveals that using semantic segmentation datasets as Multi-Label Dense Classification (MLDC) often results in additional quality gains. Lastly, our method significantly improves the data efficiency for the considered MDE datasets, enhancing their quality while reducing their size by at least 80%. This paves the way for using auxiliary data from related tasks to improve MDE quality despite limited availability of high-quality labeled data. Code is available at this https URL.

Comments:	Paper accepted at WACV 2025
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2501.12824 [cs.CV]
	(or arXiv:2501.12824v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.12824

Submission history

From: Alessio Quercia [view email]
[v1] Wed, 22 Jan 2025 12:04:58 UTC (27,910 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators