DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

Zhang, Hanling; Su, Rundong; Yuan, Zhihang; Chen, Pengtao; Fan, Mingzhu Shen Yibo; Yan, Shengen; Dai, Guohao; Wang, Yu

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.22796 (cs)

[Submitted on 28 Mar 2025]

Title:DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

Authors:Hanling Zhang, Rundong Su, Zhihang Yuan, Pengtao Chen, Mingzhu Shen Yibo Fan, Shengen Yan, Guohao Dai, Yu Wang

View PDF HTML (experimental)

Abstract:Text-to-image generation models, especially Multimodal Diffusion Transformers (MMDiT), have shown remarkable progress in generating high-quality images. However, these models often face significant computational bottlenecks, particularly in attention mechanisms, which hinder their scalability and efficiency. In this paper, we introduce DiTFastAttnV2, a post-training compression method designed to accelerate attention in MMDiT. Through an in-depth analysis of MMDiT's attention patterns, we identify key differences from prior DiT-based methods and propose head-wise arrow attention and caching mechanisms to dynamically adjust attention heads, effectively bridging this gap. We also design an Efficient Fused Kernel for further acceleration. By leveraging local metric methods and optimization techniques, our approach significantly reduces the search time for optimal compression schemes to just minutes while maintaining generation quality. Furthermore, with the customized kernel, DiTFastAttnV2 achieves a 68% reduction in attention FLOPs and 1.5x end-to-end speedup on 2K image generation without compromising visual fidelity.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2503.22796 [cs.CV]
	(or arXiv:2503.22796v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.22796

Submission history

From: Hanling Zhang [view email]
[v1] Fri, 28 Mar 2025 18:00:12 UTC (4,274 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators