Causal Diffusion Transformers for Generative Modeling

Deng, Chaorui; Zhu, Deyao; Li, Kunchang; Guang, Shi; Fan, Haoqi

Computer Science > Computer Vision and Pattern Recognition

arXiv:2412.12095 (cs)

[Submitted on 16 Dec 2024 (v1), last revised 17 Dec 2024 (this version, v2)]

Title:Causal Diffusion Transformers for Generative Modeling

Authors:Chaorui Deng, Deyao Zhu, Kunchang Li, Shi Guang, Haoqi Fan

View PDF HTML (experimental)

Abstract:We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion - a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion's multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion's ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.

Comments:	22 figures, 21 pages
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2412.12095 [cs.CV]
	(or arXiv:2412.12095v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2412.12095

Submission history

From: Chaorui Deng [view email]
[v1] Mon, 16 Dec 2024 18:59:29 UTC (33,148 KB)
[v2] Tue, 17 Dec 2024 18:45:55 UTC (33,148 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Causal Diffusion Transformers for Generative Modeling

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Causal Diffusion Transformers for Generative Modeling

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators