TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

Huang, Xiang; Shen, Jiayu; Huang, Shanshan; Cheng, Sitao; Wang, Xiaxia; Qu, Yuzhong

Computer Science > Computation and Language

arXiv:2412.19544 (cs)

[Submitted on 27 Dec 2024]

Title:TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

Authors:Xiang Huang, Jiayu Shen, Shanshan Huang, Sitao Cheng, Xiaxia Wang, Yuzhong Qu

View PDF HTML (experimental)

Abstract:Semantic parsing, which converts natural language questions into logic forms, plays a crucial role in reasoning within structured environments. However, existing methods encounter two significant challenges: reliance on extensive manually annotated datasets and limited generalization capability to unseen examples. To tackle these issues, we propose Targeted Synthetic Data Generation (TARGA), a practical framework that dynamically generates high-relevance synthetic data without manual annotation. Starting from the pertinent entities and relations of a given question, we probe for the potential relevant queries through layer-wise expansion and cross-layer combination. Then we generate corresponding natural language questions for these constructed queries to jointly serve as the synthetic demonstrations for in-context learning. Experiments on multiple knowledge base question answering (KBQA) datasets demonstrate that TARGA, using only a 7B-parameter model, substantially outperforms existing non-fine-tuned methods that utilize close-sourced model, achieving notable improvements in F1 scores on GrailQA(+7.7) and KBQA-Agent(+12.2). Furthermore, TARGA also exhibits superior sample efficiency, robustness, and generalization capabilities under non-I.I.D. settings.

Subjects:	Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2412.19544 [cs.CL]
	(or arXiv:2412.19544v1 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2412.19544

Submission history

From: Jiayu Shen [view email]
[v1] Fri, 27 Dec 2024 09:16:39 UTC (690 KB)

Computer Science > Computation and Language

Title:TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators