Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation

Liu, Han; Wei, Yinwei; Liu, Fan; Wang, Wenjie; Nie, Liqiang; Chua, Tat-Seng

doi:10.1145/3617827

Computer Science > Computer Vision and Pattern Recognition

arXiv:2501.07110 (cs)

[Submitted on 13 Jan 2025]

Title:Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation

Authors:Han Liu, Yinwei Wei, Fan Liu, Wenjie Wang, Liqiang Nie, Tat-Seng Chua

View PDF HTML (experimental)

Abstract:Multimodal information (e.g., visual, acoustic, and textual) has been widely used to enhance representation learning for micro-video recommendation. For integrating multimodal information into a joint representation of micro-video, multimodal fusion plays a vital role in the existing micro-video recommendation approaches. However, the static multimodal fusion used in previous studies is insufficient to model the various relationships among multimodal information of different micro-videos. In this paper, we develop a novel meta-learning-based multimodal fusion framework called Meta Multimodal Fusion (MetaMMF), which dynamically assigns parameters to the multimodal fusion function for each micro-video during its representation learning. Specifically, MetaMMF regards the multimodal fusion of each micro-video as an independent task. Based on the meta information extracted from the multimodal features of the input task, MetaMMF parameterizes a neural network as the item-specific fusion function via a meta learner. We perform extensive experiments on three benchmark datasets, demonstrating the significant improvements over several state-of-the-art multimodal recommendation models, like MMGCN, LATTICE, and InvRL. Furthermore, we lighten our model by adopting canonical polyadic decomposition to improve the training efficiency, and validate its effectiveness through experimental results. Codes are available at this https URL.

Comments:	This paper has been accepted by ACM Transactions on Information Systems
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR); Multimedia (cs.MM)
Cite as:	arXiv:2501.07110 [cs.CV]
	(or arXiv:2501.07110v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2501.07110
Related DOI:	https://doi.org/10.1145/3617827

Submission history

From: Han Liu [view email]
[v1] Mon, 13 Jan 2025 07:51:43 UTC (2,179 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators