Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Ma, Guoqing; Huang, Haoyang; Yan, Kun; Chen, Liangyu; Duan, Nan; Yin, Shengming; Wan, Changyi; Ming, Ranchen; Song, Xiaoniu; Chen, Xing; Zhou, Yu; Sun, Deshan; Zhou, Deyu; Zhou, Jian; Tan, Kaijun; An, Kang; Chen, Mei; Ji, Wei; Wu, Qiling; Sun, Wen; Han, Xin; Wei, Yanan; Ge, Zheng; Li, Aojie; Wang, Bin; Huang, Bizhu; Wang, Bo; Li, Brian; Miao, Changxing; Xu, Chen; Wu, Chenfei; Yu, Chenguang; Shi, Dapeng; Hu, Dingyuan; Liu, Enle; Yu, Gang; Yang, Ge; Huang, Guanzhe; Yan, Gulin; Feng, Haiyang; Nie, Hao; Jia, Haonan; Hu, Hanpeng; Chen, Hanqi; Yan, Haolong; Wang, Heng; Guo, Hongcheng; Xiong, Huilin; Xiong, Huixin; Gong, Jiahao; Wu, Jianchang; Wu, Jiaoren; Wu, Jie; Yang, Jie; Liu, Jiashuai; Li, Jiashuo; Zhang, Jingyang; Guo, Junjing; Lin, Junzhe; Li, Kaixiang; Liu, Lei; Xia, Lei; Zhao, Liang; Tan, Liguo; Huang, Liwen; Shi, Liying; Li, Ming; Li, Mingliang; Cheng, Muhua; Wang, Na; Chen, Qiaohui; He, Qinglin; Liang, Qiuyan; Sun, Quan; Sun, Ran; Wang, Rui; Pang, Shaoliang; Yang, Shiliang; Liu, Sitong; Liu, Siqi; Gao, Shuli; Cao, Tiancheng; Wang, Tianyu; Ming, Weipeng; He, Wenqing; Zhao, Xu; Zhang, Xuelin; Zeng, Xianfang; Liu, Xiaojia; Yang, Xuan; Dai, Yaqi; Yu, Yanbo; Li, Yang; Deng, Yineng; Wang, Yingming; Wang, Yilei; Lu, Yuanwei; Chen, Yu; Luo, Yu; Luo, Yuchu; Yin, Yuhe; Feng, Yuheng; Yang, Yuxiang; Tang, Zecheng; Zhang, Zekai; Yang, Zidong; Jiao, Binxing; Chen, Jiansheng; Li, Jing; Zhou, Shuchang; Zhang, Xiangyu; Zhang, Xinhao; Zhu, Yibo; Shum, Heung-Yeung; Jiang, Daxin

Computer Science > Computer Vision and Pattern Recognition

arXiv:2502.10248 (cs)

[Submitted on 14 Feb 2025 (v1), last revised 17 Feb 2025 (this version, v2)]

Title:Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Authors:Guoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo et al. (15 additional authors not shown)

View PDF HTML (experimental)

Abstract:We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at this https URL. The online version can be accessed from this https URL as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

Comments:	36 pages, 14 figures
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
Cite as:	arXiv:2502.10248 [cs.CV]
	(or arXiv:2502.10248v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2502.10248

Submission history

From: Haoyang Huang [view email]
[v1] Fri, 14 Feb 2025 15:58:10 UTC (39,918 KB)
[v2] Mon, 17 Feb 2025 08:58:33 UTC (39,919 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators