CIC: A framework for Culturally-aware Image Captioning

Yun, Youngsik; Kim, Jihie

Computer Science > Computer Vision and Pattern Recognition

arXiv:2402.05374 (cs)

[Submitted on 8 Feb 2024 (v1), last revised 2 May 2024 (this version, v2)]

Title:CIC: A framework for Culturally-aware Image Captioning

Authors:Youngsik Yun, Jihie Kim

View PDF

Abstract:Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, \textbf{Culturally-aware Image Captioning (CIC)}, that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Our code and dataset will be made publicly available upon acceptance.

Comments:	Accepted in IJCAI 2024
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:	arXiv:2402.05374 [cs.CV]
	(or arXiv:2402.05374v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2402.05374

Submission history

From: Youngsik Yun [view email]
[v1] Thu, 8 Feb 2024 03:12:25 UTC (9,813 KB)
[v2] Thu, 2 May 2024 02:41:50 UTC (9,813 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:CIC: A framework for Culturally-aware Image Captioning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:CIC: A framework for Culturally-aware Image Captioning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators