SapiensID: Foundation for Human Recognition

Kim, Minchul; Ye, Dingqiang; Su, Yiyang; Liu, Feng; Liu, Xiaoming

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.04708 (cs)

[Submitted on 7 Apr 2025]

Title:SapiensID: Foundation for Human Recognition

Authors:Minchul Kim, Dingqiang Ye, Yiyang Su, Feng Liu, Xiaoming Liu

View PDF HTML (experimental)

Abstract:Existing human recognition systems often rely on separate, specialized models for face and body analysis, limiting their effectiveness in real-world scenarios where pose, visibility, and context vary widely. This paper introduces SapiensID, a unified model that bridges this gap, achieving robust performance across diverse settings. SapiensID introduces (i) Retina Patch (RP), a dynamic patch generation scheme that adapts to subject scale and ensures consistent tokenization of regions of interest, (ii) a masked recognition model (MRM) that learns from variable token length, and (iii) Semantic Attention Head (SAH), an module that learns pose-invariant representations by pooling features around key body parts. To facilitate training, we introduce WebBody4M, a large-scale dataset capturing diverse poses and scale variations. Extensive experiments demonstrate that SapiensID achieves state-of-the-art results on various body ReID benchmarks, outperforming specialized models in both short-term and long-term scenarios while remaining competitive with dedicated face recognition systems. Furthermore, SapiensID establishes a strong baseline for the newly introduced challenge of Cross Pose-Scale ReID, demonstrating its ability to generalize to complex, real-world conditions.

Comments:	To appear in CVPR2025
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2504.04708 [cs.CV]
	(or arXiv:2504.04708v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.04708

Submission history

From: Minchul Kim [view email]
[v1] Mon, 7 Apr 2025 03:38:07 UTC (7,245 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:SapiensID: Foundation for Human Recognition

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:SapiensID: Foundation for Human Recognition

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators