MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities

Wu, Bizhu; Xie, Jinheng; Shen, Keming; Kong, Zhe; Ren, Jianfeng; Bai, Ruibin; Qu, Rong; Shen, Linlin

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.02478 (cs)

[Submitted on 3 Apr 2025]

Title:MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities

Authors:Bizhu Wu, Jinheng Xie, Keming Shen, Zhe Kong, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen

View PDF HTML (experimental)

Abstract:Recent motion-aware large language models have demonstrated promising potential in unifying motion comprehension and generation. However, existing approaches primarily focus on coarse-grained motion-text modeling, where text describes the overall semantics of an entire motion sequence in just a few words. This limits their ability to handle fine-grained motion-relevant tasks, such as understanding and controlling the movements of specific body parts. To overcome this limitation, we pioneer MG-MotionLLM, a unified motion-language model for multi-granular motion comprehension and generation. We further introduce a comprehensive multi-granularity training scheme by incorporating a set of novel auxiliary tasks, such as localizing temporal boundaries of motion segments via detailed text as well as motion detailed captioning, to facilitate mutual reinforcement for motion-text modeling across various levels of granularity. Extensive experiments show that our MG-MotionLLM achieves superior performance on classical text-to-motion and motion-to-text tasks, and exhibits potential in novel fine-grained motion comprehension and editing tasks. Project page: CVI-SZU/MG-MotionLLM

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2504.02478 [cs.CV]
	(or arXiv:2504.02478v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.02478

Submission history

From: Bizhu Wu [view email]
[v1] Thu, 3 Apr 2025 10:53:41 UTC (704 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators