BriefGPT - AI 论文速递 ·

背包里装满技能：多角度任务视角下的自我中心视频理解

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文探讨了穿戴式摄像头在视频理解中的应用，提出了EgoTask Translation（EgoT2）和EgoInstructor模型，通过多任务学习和跨视角检索提升第一人称视频的理解和字幕生成性能。同时介绍了Ego-Exo4D数据集，包含多模态视频和基准任务，旨在推动技能活动的研究。

🎯

❓

EgoTask Translation（EgoT2）模型通过多任务学习的翻转设计，优化多个模型以提升视频理解任务的性能。

EgoInstructor模型能够自动检索语义相关的第三人称指导视频，从而增强第一人称视频的字幕生成。

Ego-Exo4D数据集具有多模态特性，包括多通道音频、眼动数据和3D点云，支持细粒度活动理解和熟练度估计等任务。

EgoTaskQA基准旨在通过问题回答对现实生活中的个人行为视频进行对话式任务理解，评估视频推理模型。

在Ego4D视频挑战中，EgoT2模型的实验结果优于现有的transfer范式，并在四项挑战中取得最佳成绩。

Ego-Exo4D数据集总共获得了1,422小时的视频，涉及来自全球13个城市的800多名参与者。

🏷️