SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction

Li, Zhengyuan; Cheng, Kai; Ghosh, Anindita; Bhattacharya, Uttaran; Gui, Liangyan; Bera, Aniket

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.18211 (cs)

[Submitted on 23 Mar 2025 (v1), last revised 25 Mar 2025 (this version, v2)]

Title:SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction

Authors:Zhengyuan Li, Kai Cheng, Anindita Ghosh, Uttaran Bhattacharya, Liangyan Gui, Aniket Bera

View PDF HTML (experimental)

Abstract:Text-based 3D human motion editing is a critical yet challenging task in computer vision and graphics. While training-free approaches have been explored, the recent release of the MotionFix dataset, which includes source-text-motion triplets, has opened new avenues for training, yielding promising results. However, existing methods struggle with precise control, often leading to misalignment between motion semantics and language instructions. In this paper, we introduce a related task, motion similarity prediction, and propose a multi-task training paradigm, where we train the model jointly on motion editing and motion similarity prediction to foster the learning of semantically meaningful representations. To complement this task, we design an advanced Diffusion-Transformer-based architecture that separately handles motion similarity prediction and motion editing. Extensive experiments demonstrate the state-of-the-art performance of our approach in both editing alignment and fidelity.

Comments:	Project URL: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2503.18211 [cs.CV]
	(or arXiv:2503.18211v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.18211

Submission history

From: Zhengyuan Li [view email]
[v1] Sun, 23 Mar 2025 21:29:37 UTC (16,032 KB)
[v2] Tue, 25 Mar 2025 20:31:03 UTC (16,029 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators