Learning a Multi-Domain Curriculum for Neural Machine Translation

Wang, Wei; Tian, Ye; Ngiam, Jiquan; Yang, Yinfei; Caswell, Isaac; Parekh, Zarana

Computer Science > Computation and Language

arXiv:1908.10940 (cs)

[Submitted on 28 Aug 2019 (v1), last revised 2 May 2020 (this version, v2)]

Title:Learning a Multi-Domain Curriculum for Neural Machine Translation

Authors:Wei Wang, Ye Tian, Jiquan Ngiam, Yinfei Yang, Isaac Caswell, Zarana Parekh

View PDF

Abstract:Most data selection research in machine translation focuses on improving a single domain. We perform data selection for multiple domains at once. This is achieved by carefully introducing instance-level domain-relevance features and automatically constructing a training curriculum to gradually concentrate on multi-domain relevant and noise-reduced data batches. Both the choice of features and the use of curriculum are crucial for balancing and improving all domains, including out-of-domain. In large-scale experiments, the multi-domain curriculum simultaneously reaches or outperforms the individual performance and brings solid gains over no-curriculum training.

Comments:	Accepted at ACL2020
Subjects:	Computation and Language (cs.CL); Machine Learning (cs.LG)
Cite as:	arXiv:1908.10940 [cs.CL]
	(or arXiv:1908.10940v2 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.1908.10940

Submission history

From: Wei Wang [view email]
[v1] Wed, 28 Aug 2019 20:48:05 UTC (61 KB)
[v2] Sat, 2 May 2020 00:32:41 UTC (58 KB)

Full-text links:

Access Paper:

view license

Current browse context:

cs.CL

< prev | next >

new | recent | 2019-08

Change to browse by:

cs
cs.LG

References & Citations

DBLP - CS Bibliography

listing | bibtex

Wei Wang
Ye Tian
Jiquan Ngiam
Yinfei Yang
Isaac Caswell

…

export BibTeX citation

Computer Science > Computation and Language

Title:Learning a Multi-Domain Curriculum for Neural Machine Translation

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:Learning a Multi-Domain Curriculum for Neural Machine Translation

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators