Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Sun, Yu; Li, Yin; Sun, Ruixiao; Liu, Chunhui; Zhou, Fangming; Jin, Ze; Wang, Linjie; Shen, Xiang; Hao, Zhuolin; Xiong, Hongyu

Computer Science > Multimedia

arXiv:2503.17551 (cs)

[Submitted on 21 Mar 2025]

Title:Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Authors:Yu Sun, Yin Li, Ruixiao Sun, Chunhui Liu, Fangming Zhou, Ze Jin, Linjie Wang, Xiang Shen, Zhuolin Hao, Hongyu Xiong

View PDF HTML (experimental)

Abstract:Transformer-based multimodal models are widely used in industrial-scale recommendation, search, and advertising systems for content understanding and relevance ranking. Enhancing labeled training data quality and cross-modal fusion significantly improves model performance, influencing key metrics such as quality view rates and ad revenue. High-quality annotations are crucial for advancing content modeling, yet traditional statistical-based active learning (AL) methods face limitations: they struggle to detect overconfident misclassifications and are less effective in distinguishing semantically similar items in deep neural networks. Additionally, audio information plays an increasing role, especially in short-video platforms, yet most pre-trained multimodal architectures primarily focus on text and images. While training from scratch across all three modalities is possible, it sacrifices the benefits of leveraging existing pre-trained visual-language (VL) and audio models. To address these challenges, we propose kNN-based Latent Space Broadening (LSB) to enhance AL efficiency and Vision-Language Modeling with Audio Enhancement (VLMAE), a mid-fusion approach integrating audio into VL models. This system deployed in production systems, leading to significant business gains.

Subjects:	Multimedia (cs.MM); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)
Cite as:	arXiv:2503.17551 [cs.MM]
	(or arXiv:2503.17551v1 [cs.MM] for this version)
	https://doi.org/10.48550/arXiv.2503.17551

Submission history

From: Yu Sun [view email]
[v1] Fri, 21 Mar 2025 21:55:05 UTC (2,587 KB)

Computer Science > Multimedia

Title:Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Multimedia

Title:Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators