DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Cho, Jungbin; Kim, Junwan; Kim, Jisoo; Kim, Minseo; Kang, Mingu; Hong, Sungeun; Oh, Tae-Hyun; Yu, Youngjae

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.19527 (cs)

[Submitted on 29 Nov 2024 (v1), last revised 2 Dec 2024 (this version, v2)]

Title:DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Authors:Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

View PDF HTML (experimental)

Abstract:Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: this https URL.

Comments:	20 pages 18 figures
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
Cite as:	arXiv:2411.19527 [cs.CV]
	(or arXiv:2411.19527v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.19527

Submission history

From: Jungbin Cho [view email]
[v1] Fri, 29 Nov 2024 07:54:56 UTC (10,801 KB)
[v2] Mon, 2 Dec 2024 03:34:45 UTC (17,233 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators