Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization

Hao, Shuyang; Wang, Yiwei; Hooi, Bryan; Liu, Jun; Chen, Muhao; Huang, Zi; Cai, Yujun

Computer Science > Computer Vision and Pattern Recognition

arXiv:2503.11750 (cs)

[Submitted on 14 Mar 2025]

Title:Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization

Authors:Shuyang Hao, Yiwei Wang, Bryan Hooi, Jun Liu, Muhao Chen, Zi Huang, Yujun Cai

View PDF HTML (experimental)

Abstract:In the realm of large vision-language models (LVLMs), adversarial jailbreak attacks serve as a red-teaming approach to identify safety vulnerabilities of these models and their associated defense mechanisms. However, we identify a critical limitation: not every adversarial optimization step leads to a positive outcome, and indiscriminately accepting optimization results at each step may reduce the overall attack success rate. To address this challenge, we introduce HKVE (Hierarchical Key-Value Equalization), an innovative jailbreaking framework that selectively accepts gradient optimization results based on the distribution of attention scores across different layers, ensuring that every optimization step positively contributes to the attack. Extensive experiments demonstrate HKVE's significant effectiveness, achieving attack success rates of 75.08% on MiniGPT4, 85.84% on LLaVA and 81.00% on Qwen-VL, substantially outperforming existing methods by margins of 20.43\%, 21.01\% and 26.43\% respectively. Furthermore, making every step effective not only leads to an increase in attack success rate but also allows for a reduction in the number of iterations, thereby lowering computational costs. Warning: This paper contains potentially harmful example data.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR)
Cite as:	arXiv:2503.11750 [cs.CV]
	(or arXiv:2503.11750v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2503.11750

Submission history

From: Shuyang Hao [view email]
[v1] Fri, 14 Mar 2025 17:57:42 UTC (1,173 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators