本文介绍了InternVideo模型在Ego4D挑战中的出色表现,涵盖目标检测和手部动作预测等自我中心视频任务。该模型在多个任务中超越基线方法,展现了强大的表示能力。Ego4D数据集提供了丰富的日常活动视频,推动了第一人称视觉理解的研究。
完成下面两步后,将自动完成登录并继续当前操作。