Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Zhu, Jiajun; Wang, Peihao; Cai, Ruisi; Lee, Jason D.; Li, Pan; Wang, Zhangyang

Computer Science > Computation and Language

arXiv:2501.00712 (cs)

[Submitted on 1 Jan 2025]

Title:Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Authors:Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang

View PDF HTML (experimental)

Abstract:Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose con$\textbf{T}$extualized equivari$\textbf{A}$nt $\textbf{P}$osition $\textbf{E}$mbedding ($\textbf{TAPE}$), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.

Comments:	Code is available at this https URL
Subjects:	Computation and Language (cs.CL); Machine Learning (cs.LG)
ACM classes:	I.2.6; I.2.7
Cite as:	arXiv:2501.00712 [cs.CL]
	(or arXiv:2501.00712v1 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2501.00712

Submission history

From: Jiajun Zhu [view email]
[v1] Wed, 1 Jan 2025 03:23:00 UTC (1,284 KB)

Computer Science > Computation and Language

Title:Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators