Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors

Tang, Liyan; Goyal, Tanya; Fabbri, Alexander R.; Laban, Philippe; Xu, Jiacheng; Yavuz, Semih; Kryściński, Wojciech; Rousseau, Justin F.; Durrett, Greg

Computer Science > Computation and Language

arXiv:2205.12854 (cs)

[Submitted on 25 May 2022 (v1), last revised 26 May 2023 (this version, v2)]

Title:Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors

Authors:Liyan Tang, Tanya Goyal, Alexander R. Fabbri, Philippe Laban, Jiacheng Xu, Semih Yavuz, Wojciech Kryściński, Justin F. Rousseau, Greg Durrett

View PDF

Abstract:The propensity of abstractive summarization models to make factual errors has been studied extensively, including design of metrics to detect factual errors and annotation of errors in current systems' outputs. However, the ever-evolving nature of summarization systems, metrics, and annotated benchmarks makes factuality evaluation a moving target, and drawing clear comparisons among metrics has become increasingly difficult. In this work, we aggregate factuality error annotations from nine existing datasets and stratify them according to the underlying summarization model. We compare performance of state-of-the-art factuality metrics, including recent ChatGPT-based metrics, on this stratified benchmark and show that their performance varies significantly across different types of summarization models. Critically, our analysis shows that much of the recent improvement in the factuality detection space has been on summaries from older (pre-Transformer) models instead of more relevant recent summarization models. We further perform a finer-grained analysis per error-type and find similar performance variance across error types for different factuality metrics. Our results show that no one metric is superior in all settings or for all error types, and we provide recommendations for best practices given these insights.

Comments:	Accepted to ACL 2023
Subjects:	Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2205.12854 [cs.CL]
	(or arXiv:2205.12854v2 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2205.12854

Submission history

From: Liyan Tang [view email]
[v1] Wed, 25 May 2022 15:26:48 UTC (6,651 KB)
[v2] Fri, 26 May 2023 00:21:51 UTC (7,577 KB)

Computer Science > Computation and Language

Title:Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators