A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications

Rashid, Maisha Binte; Rivas, Pablo

Computer Science > Computers and Society

arXiv:2502.16361 (cs)

[Submitted on 22 Feb 2025]

Title:A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications

Authors:Maisha Binte Rashid, Pablo Rivas

View PDF HTML (experimental)

Abstract:Vision-Language Models (VLMs) are increasingly deployed in public sector missions, necessitating robust evaluation of their safety and vulnerability to adversarial attacks. This paper introduces a novel framework to quantify adversarial risks in VLMs. We analyze model performance under Gaussian, salt-and-pepper, and uniform noise, identifying misclassification thresholds and deriving composite noise patches and saliency patterns that highlight vulnerable regions. These patterns are compared against the Fast Gradient Sign Method (FGSM) to assess their adversarial effectiveness. We propose a new Vulnerability Score that combines the impact of random noise and adversarial attacks, providing a comprehensive metric for evaluating model robustness.

Comments:	AAAI 2025 Workshop on AI for Social Impact: Bridging Innovations in Finance, Social Media, and Crime Prevention
Subjects:	Computers and Society (cs.CY)
ACM classes:	I.2.10; I.4.9; K.4.1
Cite as:	arXiv:2502.16361 [cs.CY]
	(or arXiv:2502.16361v1 [cs.CY] for this version)
	https://doi.org/10.48550/arXiv.2502.16361

Submission history

From: Pablo Rivas [view email]
[v1] Sat, 22 Feb 2025 21:33:26 UTC (1,790 KB)

Full-text links:

Access Paper:

view license

Current browse context:

cs.CY

< prev | next >

new | recent | 2025-02

Change to browse by:

References & Citations

export BibTeX citation

Computer Science > Computers and Society

Title:A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computers and Society

Title:A Framework for Evaluating Vision-Language Model Safety: Building Trust in AI for Public Sector Applications

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators