背包里装满技能:多角度任务视角下的自我中心视频理解

原文约500字,阅读约需1分钟。发表于:

为了将对视频流的整体感知有效地传递给智能机器,我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能,提出了一种统一的视频理解方法,它结合了人类行为的共享时间建模和最小开销,支持多个下游任务及在学习新技能时的合作,并通过四个 Ego4D 基准测试表明了我们方法的有效性和高效性。

Ego-Exo4D是一个多模态多视图视频数据集和基准挑战,包含了来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行的技能人类活动的自我中心和外部视角视频。该数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。为了推进对技能人类活动的第一人视角视频理解的研究,提出了一系列基准任务及其标注。

相关推荐 去reddit讨论