AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis

Chen, Qiuhui; Hong, Yi

Computer Science > Computer Vision and Pattern Recognition

arXiv:2401.01074 (cs)

[Submitted on 2 Jan 2024 (v1), last revised 31 Jan 2025 (this version, v3)]

Title:AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis

Authors:Qiuhui Chen, Yi Hong

View PDF HTML (experimental)

Abstract:Medical data collected for diagnostic decisions are typically multimodal, providing comprehensive information on a subject. While computer-aided diagnosis systems can benefit from multimodal inputs, effectively fusing such data remains a challenging task and a key focus in medical research. In this paper, we propose a transformer-based framework, called Alifuse, for aligning and fusing multimodal medical data. Specifically, we convert medical images and both unstructured and structured clinical records into vision and language tokens, employing intramodal and intermodal attention mechanisms to learn unified representations of all imaging and non-imaging data for classification. Additionally, we integrate restoration modeling with contrastive learning frameworks, jointly learning the high-level semantic alignment between images and texts and the low-level understanding of one modality with the help of another. We apply Alifuse to classify Alzheimer's disease, achieving state-of-the-art performance on five public datasets and outperforming eight baselines.

Comments:	BIBM 2024
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2401.01074 [cs.CV]
	(or arXiv:2401.01074v3 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2401.01074

Submission history

From: Qiuhui Chen [view email]
[v1] Tue, 2 Jan 2024 07:28:21 UTC (2,718 KB)
[v2] Sun, 7 Jan 2024 04:14:16 UTC (2,718 KB)
[v3] Fri, 31 Jan 2025 15:04:02 UTC (19,693 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators