ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

Zhuo, Terry Yue; Liao, Yaqing; Lei, Yuecheng; Qu, Lizhen; de Melo, Gerard; Chang, Xiaojun; Ren, Yazhou; Xu, Zenglin

Computer Science > Computer Vision and Pattern Recognition

arXiv:2210.05556 (cs)

[Submitted on 11 Oct 2022 (v1), last revised 9 Mar 2023 (this version, v4)]

Title:ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

Authors:Terry Yue Zhuo, Yaqing Liao, Yuecheng Lei, Lizhen Qu, Gerard de Melo, Xiaojun Chang, Yazhou Ren, Zenglin Xu

View PDF

Abstract:We introduce ViLPAct, a novel vision-language benchmark for human activity planning. It is designed for a task where embodied AI agents can reason and forecast future actions of humans based on video clips about their initial activities and intents in text. The dataset consists of 2.9k videos from \charades extended with intents via crowdsourcing, a multi-choice question test set, and four strong baselines. One of the baselines implements a neurosymbolic approach based on a multi-modal knowledge base (MKB), while the other ones are deep generative models adapted from recent state-of-the-art (SOTA) methods. According to our extensive experiments, the key challenges are compositional generalization and effective use of information from both modalities.

Comments:	Accepted at EACL2023 (Findings)
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
Cite as:	arXiv:2210.05556 [cs.CV]
	(or arXiv:2210.05556v4 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2210.05556

Submission history

From: Terry Yue Zhuo [view email]
[v1] Tue, 11 Oct 2022 15:50:51 UTC (7,022 KB)
[v2] Wed, 8 Feb 2023 06:00:57 UTC (7,018 KB)
[v3] Sun, 19 Feb 2023 09:28:10 UTC (7,019 KB)
[v4] Thu, 9 Mar 2023 11:04:07 UTC (7,019 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators