CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation

Ni, Tongke; Fan, Yang; Zhou, Junru; Wu, Xiangping; Chen, Qingcai

Computer Science > Computation and Language

arXiv:2503.23671 (cs)

[Submitted on 31 Mar 2025 (v1), last revised 2 Apr 2025 (this version, v2)]

Title:CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation

Authors:Tongke Ni, Yang Fan, Junru Zhou, Xiangping Wu, Qingcai Chen

View PDF HTML (experimental)

Abstract:Text semantic segmentation involves partitioning a document into multiple paragraphs with continuous semantics based on the subject matter, contextual information, and document structure. Traditional approaches have typically relied on preprocessing documents into segments to address input length constraints, resulting in the loss of critical semantic information across segments. To address this, we present CrossFormer, a transformer-based model featuring a novel cross-segment fusion module that dynamically models latent semantic dependencies across document segments, substantially elevating segmentation accuracy. Additionally, CrossFormer can replace rule-based chunk methods within the Retrieval-Augmented Generation (RAG) system, producing more semantically coherent chunks that enhance its efficacy. Comprehensive evaluations confirm CrossFormer's state-of-the-art performance on public text semantic segmentation datasets, alongside considerable gains on RAG benchmarks.

Comments:	10 pages, 4 figures
Subjects:	Computation and Language (cs.CL)
Cite as:	arXiv:2503.23671 [cs.CL]
	(or arXiv:2503.23671v2 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2503.23671

Submission history

From: Tongke Ni [view email]
[v1] Mon, 31 Mar 2025 02:27:49 UTC (1,676 KB)
[v2] Wed, 2 Apr 2025 07:47:56 UTC (1,676 KB)

Computer Science > Computation and Language

Title:CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators