FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

Xu, Liangyu; Zhang, Xuemiao; Duan, Feiyu; Wang, Sirui; Wang, Jingang; Cai, Xunliang

Computer Science > Computation and Language

arXiv:2502.00761 (cs)

[Submitted on 2 Feb 2025 (v1), last revised 18 Feb 2025 (this version, v2)]

Title:FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

Authors:Liangyu Xu, Xuemiao Zhang, Feiyu Duan, Sirui Wang, Jingang Wang, Xunliang Cai

View PDF HTML (experimental)

Abstract:Selecting high-quality data can significantly improve the pretraining efficiency of large language models (LLMs). Existing methods generally rely on heuristic techniques and single-quality signals, limiting their ability to evaluate data quality comprehensively. In this work, we propose FIRE, a flexible and scalable framework for integrating multiple data quality raters, which allows for a comprehensive assessment of data quality across various dimensions. FIRE aligns multiple quality signals into a unified space, and integrates diverse data quality raters to provide a comprehensive quality signal for each data point. Further, we introduce a progressive data selection scheme based on FIRE that iteratively refines the selection of high-quality data points. Experiments on the SlimPajama dataset reveal that FIRE outperforms other data selection methods and significantly enhances the pretrained model across a wide range of downstream tasks, with a 2.9% average performance improvement over Random and reducing the FLOPs necessary to achieve a certain performance level by more than half.

Comments:	19 pages, 11 figures
Subjects:	Computation and Language (cs.CL)
Cite as:	arXiv:2502.00761 [cs.CL]
	(or arXiv:2502.00761v2 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2502.00761

Submission history

From: Xuemiao Zhang [view email]
[v1] Sun, 2 Feb 2025 11:52:26 UTC (1,465 KB)
[v2] Tue, 18 Feb 2025 03:17:33 UTC (1,472 KB)

Computer Science > Computation and Language

Title:FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators