DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks

Kassis, Andre; Hengartner, Urs; Yu, Yaoliang

Computer Science > Cryptography and Security

arXiv:2411.16598 (cs)

[Submitted on 25 Nov 2024 (v1), last revised 4 Feb 2025 (this version, v2)]

Title:DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks

Authors:Andre Kassis, Urs Hengartner, Yaoliang Yu

View PDF HTML (experimental)

Abstract:Diffusion-based purification (DBP) has emerged as a cornerstone defense against adversarial examples (AEs), widely regarded as robust due to its use of diffusion models (DMs) that project AEs onto the natural data distribution. However, contrary to prior assumptions, we theoretically prove that adaptive gradient-based attacks nullify this foundational claim, effectively targeting the DM rather than the classifier and causing purified outputs to align with adversarial distributions. This surprising discovery prompts a reassessment of DBP's robustness, revealing it stems from critical flaws in backpropagation techniques used so far for attacking DBP. To address these gaps, we introduce DiffBreak, a novel and reliable gradient library for DBP, which exposes how adaptive attacks drastically degrade its robustness. In stricter majority-vote settings, where classifier decisions aggregate predictions over multiple purified inputs, DBP retains partial robustness to traditional norm-bounded AEs due to its stochasticity disrupting adversarial alignment. However, we propose a novel adaptation of a recent optimization method against deepfake watermarking, crafting systemic adversarial perturbations that defeat DBP even under these conditions, ultimately challenging its viability as a defense without improvements.

Subjects:	Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
Cite as:	arXiv:2411.16598 [cs.CR]
	(or arXiv:2411.16598v2 [cs.CR] for this version)
	https://doi.org/10.48550/arXiv.2411.16598

Submission history

From: Andre Kassis [view email]
[v1] Mon, 25 Nov 2024 17:30:32 UTC (9,341 KB)
[v2] Tue, 4 Feb 2025 20:04:20 UTC (10,032 KB)

Computer Science > Cryptography and Security

Title:DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Cryptography and Security

Title:DiffBreak: Breaking Diffusion-Based Purification with Adaptive Attacks

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators