DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

Gao, Songyang; Dou, Shihan; Liu, Yan; Wang, Xiao; Zhang, Qi; Wei, Zhongyu; Ma, Jin; Shan, Ying

Computer Science > Computation and Language

arXiv:2306.15164 (cs)

[Submitted on 27 Jun 2023]

Title:DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

Authors:Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan

View PDF

Abstract:Adversarial training is one of the best-performing methods in improving the robustness of deep language models. However, robust models come at the cost of high time consumption, as they require multi-step gradient ascents or word substitutions to obtain adversarial samples. In addition, these generated samples are deficient in grammatical quality and semantic consistency, which impairs the effectiveness of adversarial training. To address these problems, we introduce a novel, effective procedure for instead adversarial training with only clean data. Our procedure, distribution shift risk minimization (DSRM), estimates the adversarial loss by perturbing the input data's probability distribution rather than their embeddings. This formulation results in a robust model that minimizes the expected global loss under adversarial attacks. Our approach requires zero adversarial samples for training and reduces time consumption by up to 70\% compared to current best-performing adversarial training methods. Experiments demonstrate that DSRM considerably improves BERT's resistance to textual adversarial attacks and achieves state-of-the-art robust accuracy on various benchmarks.

Comments:	Accepted by ACL2023
Subjects:	Computation and Language (cs.CL); Machine Learning (cs.LG)
Cite as:	arXiv:2306.15164 [cs.CL]
	(or arXiv:2306.15164v1 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2306.15164

Submission history

From: Songyang Gao [view email]
[v1] Tue, 27 Jun 2023 02:46:08 UTC (7,310 KB)

Computer Science > Computation and Language

Title:DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators