Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study

Panagiotou, Emmanouil; Roy, Arjun; Ntoutsi, Eirini

Computer Science > Machine Learning

arXiv:2409.05215 (cs)

[Submitted on 8 Sep 2024]

Title:Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study

Authors:Emmanouil Panagiotou, Arjun Roy, Eirini Ntoutsi

View PDF HTML (experimental)

Abstract:Due to their data-driven nature, Machine Learning (ML) models are susceptible to bias inherited from data, especially in classification problems where class and group imbalances are prevalent. Class imbalance (in the classification target) and group imbalance (in protected attributes like sex or race) can undermine both ML utility and fairness. Although class and group imbalances commonly coincide in real-world tabular datasets, limited methods address this scenario. While most methods use oversampling techniques, like interpolation, to mitigate imbalances, recent advancements in synthetic tabular data generation offer promise but have not been adequately explored for this purpose. To this end, this paper conducts a comparative analysis to address class and group imbalances using state-of-the-art models for synthetic tabular data generation and various sampling strategies. Experimental results on four datasets, demonstrate the effectiveness of generative models for bias mitigation, creating opportunities for further exploration in this direction.

Comments:	Accepted at the ECML PKDD 2024, 4th Workshop on Bias and Fairness in AI
Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2409.05215 [cs.LG]
	(or arXiv:2409.05215v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2409.05215

Submission history

From: Emmanouil Panagiotou [view email]
[v1] Sun, 8 Sep 2024 20:08:09 UTC (1,955 KB)

Computer Science > Machine Learning

Title:Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators