LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Zhao, Shitian; Wu, Qilong; Li, Xinyue; Zhang, Bo; Li, Ming; Qin, Qi; Liu, Dongyang; Zhang, Kaipeng; Li, Hongsheng; Qiao, Yu; Gao, Peng; Fu, Bin; Li, Zhen

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.21749 (cs)

[Submitted on 27 Mar 2025]

Title:LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Authors:Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

View PDF HTML (experimental)

Abstract:We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024$\times$1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Comments:	Project page: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2503.21749 [cs.CV]
	(or arXiv:2503.21749v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.21749

Submission history

From: Zhen Li [view email]
[v1] Thu, 27 Mar 2025 17:56:15 UTC (8,760 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators