DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Liao, Bencheng; Chen, Shaoyu; Yin, Haoran; Jiang, Bo; Wang, Cheng; Yan, Sixu; Zhang, Xinbang; Li, Xiangyu; Zhang, Ying; Zhang, Qian; Wang, Xinggang

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.15139 (cs)

[Submitted on 22 Nov 2024]

Title:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Authors:Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

View PDF HTML (experimental)

Abstract:Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10$\times$ reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at this https URL.

Comments:	Work in progress. Code & demo & model will be available at this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)
Cite as:	arXiv:2411.15139 [cs.CV]
	(or arXiv:2411.15139v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.15139

Submission history

From: Bencheng Liao [view email]
[v1] Fri, 22 Nov 2024 18:59:47 UTC (5,036 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators