COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Chen, Sihan; He, Xingjian; Li, Handong; Jin, Xiaojie; Feng, Jiashi; Liu, Jing

Computer Science > Computer Vision and Pattern Recognition

arXiv:2306.09085 (cs)

[Submitted on 15 Jun 2023]

Title:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Authors:Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

View PDF

Abstract:Due to the limited scale and quality of video-text training corpus, most vision-language foundation models employ image-text datasets for pretraining and primarily focus on modeling visually semantic representations while disregarding temporal semantic representations and correlations. To address this issue, we propose COSA, a COncatenated SAmple pretrained vision-language foundation model. COSA jointly models visual contents and event-level temporal cues using only image-text corpora. We achieve this by sequentially concatenating multiple image-text pairs as inputs for pretraining. This transformation effectively converts existing image-text corpora into a pseudo long-form video-paragraph corpus, enabling richer scene transformations and explicit event-description correspondence. Extensive experiments demonstrate that COSA consistently improves performance across a broad range of downstream tasks, including long-form/short-form video-text tasks and image-text tasks such as retrieval, captioning, and question answering. Notably, COSA achieves state-of-the-art results on various competitive benchmarks. Code and model are released at this https URL.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM)
Cite as:	arXiv:2306.09085 [cs.CV]
	(or arXiv:2306.09085v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2306.09085

Submission history

From: Sihan Chen [view email]
[v1] Thu, 15 Jun 2023 12:29:42 UTC (10,656 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators