DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Li, Xiao-Hui; Yin, Fei; Liu, Cheng-Lin

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.04085 (cs)

[Submitted on 5 Apr 2025]

Title:DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Authors:Xiao-Hui Li, Fei Yin, Cheng-Lin Liu

View PDF HTML (experimental)

Abstract:Document image segmentation is crucial for document analysis and recognition but remains challenging due to the diversity of document formats and segmentation tasks. Existing methods often address these tasks separately, resulting in limited generalization and resource wastage. This paper introduces DocSAM, a transformer-based unified framework designed for various document image segmentation tasks, such as document layout analysis, multi-granularity text segmentation, and table structure recognition, by modelling these tasks as a combination of instance and semantic segmentation. Specifically, DocSAM employs Sentence-BERT to map category names from each dataset into semantic queries that match the dimensionality of instance queries. These two sets of queries interact through an attention mechanism and are cross-attended with image features to predict instance and semantic segmentation masks. Instance categories are predicted by computing the dot product between instance and semantic queries, followed by softmax normalization of scores. Consequently, DocSAM can be jointly trained on heterogeneous datasets, enhancing robustness and generalization while reducing computational and storage resources. Comprehensive evaluations show that DocSAM surpasses existing methods in accuracy, efficiency, and adaptability, highlighting its potential for advancing document image understanding and segmentation across various applications. Codes are available at this https URL.

Comments:	This paper has been accepted by CVPR 2025
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2504.04085 [cs.CV]
	(or arXiv:2504.04085v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.04085

Submission history

From: Xiao-Hui Li [view email]
[v1] Sat, 5 Apr 2025 07:14:53 UTC (32,744 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators