PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Yuan, Lingzhi; Li, Xinfeng; Xu, Chejian; Tao, Guanhong; Jia, Xiaojun; Huang, Yihao; Dong, Wei; Liu, Yang; Wang, XiaoFeng; Li, Bo

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.03544 (cs)

[Submitted on 7 Jan 2025]

Title:PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Authors:Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, XiaoFeng Wang, Bo Li

View PDF HTML (experimental)

Abstract:Text-to-image (T2I) models have been shown to be vulnerable to misuse, particularly in generating not-safe-for-work (NSFW) content, raising serious ethical concerns. In this work, we present PromptGuard, a novel content moderation technique that draws inspiration from the system prompt mechanism in large language models (LLMs) for safety alignment. Unlike LLMs, T2I models lack a direct interface for enforcing behavioral guidelines. Our key idea is to optimize a safety soft prompt that functions as an implicit system prompt within the T2I model's textual embedding space. This universal soft prompt (P*) directly moderates NSFW inputs, enabling safe yet realistic image generation without altering the inference efficiency or requiring proxy models. Extensive experiments across three datasets demonstrate that PromptGuard effectively mitigates NSFW content generation while preserving high-quality benign outputs. PromptGuard achieves 7.8 times faster than prior content moderation methods, surpassing eight state-of-the-art defenses with an optimal unsafe ratio down to 5.84%.

Comments:	16 pages, 8 figures, 10 tables
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Cryptography and Security (cs.CR)
Cite as:	arXiv:2501.03544 [cs.CV]
	(or arXiv:2501.03544v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.03544

Submission history

From: Xinfeng Li [view email]
[v1] Tue, 7 Jan 2025 05:39:21 UTC (21,071 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators