背包里装满技能:多角度任务视角下的自我中心视频理解

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

Ego-Exo4D是一个多模态多视图视频数据集和基准挑战,包含了来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行的技能人类活动的自我中心和外部视角视频。该数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。为了推进对技能人类活动的第一人视角视频理解的研究,提出了一系列基准任务及其标注。

🎯

关键要点

  • Ego-Exo4D是一个多模态多视图视频数据集和基准挑战。
  • 数据集包含来自全球13个城市的800多名参与者在131个自然场景中进行的技能人类活动视频。
  • 视频时长从1到42分钟不等,总共获得了1422小时的视频。
  • 数据集具有多通道音频、眼动数据、3D点云、相机姿态、IMU数据和多个配对的语言描述等多模态特性。
  • 提出了一系列基准任务及其标注,包括细粒度活动理解、熟练度估计、跨视角转换和3D手/身体姿态。
  • 所有资源将以开源方式提供,以促进社区中的新研究。
➡️

继续阅读