Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

Karypidis, Efstathios; Kakogeorgiou, Ioannis; Gidaris, Spyros; Komodakis, Nikos

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.08303 (cs)

[Submitted on 14 Jan 2025]

Title:Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

Authors:Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

View PDF HTML (experimental)

Abstract:Semantic future prediction is important for autonomous systems navigating dynamic environments. This paper introduces FUTURIST, a method for multimodal future semantic prediction that uses a unified and efficient visual sequence transformer architecture. Our approach incorporates a multimodal masked visual modeling objective and a novel masking mechanism designed for multimodal training. This allows the model to effectively integrate visible information from various modalities, improving prediction accuracy. Additionally, we propose a VAE-free hierarchical tokenization process, which reduces computational complexity, streamlines the training pipeline, and enables end-to-end training with high-resolution, multimodal inputs. We validate FUTURIST on the Cityscapes dataset, demonstrating state-of-the-art performance in future semantic segmentation for both short- and mid-term forecasting. We provide the implementation code at this https URL .

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2501.08303 [cs.CV]
	(or arXiv:2501.08303v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.08303

Submission history

From: Efstathios Karypidis [view email]
[v1] Tue, 14 Jan 2025 18:34:14 UTC (12,852 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Advancing Semantic Future Prediction through Multimodal Visual Sequence Transformers

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators