小红花·文摘

本文介绍了InternVideo模型在Ego4D挑战中的出色表现，涵盖目标检测和手部动作预测等自我中心视频任务。该模型在多个任务中超越基线方法，展现了强大的表示能力。Ego4D数据集提供了丰富的日常活动视频，推动了第一人称视觉理解的研究。