空间智能版ImageNet来了!李飞飞吴佳俊团队出品

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。

🎯

关键要点

  • 斯坦福大学的李飞飞和吴佳俊团队推出HourVideo数据集,用于评估长视频理解能力。
  • HourVideo数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。
  • 实验结果显示,现有多模态模型在长视频理解方面的表现远低于人类专家。
  • HourVideo旨在填补现有评估基准的不足,特别是对长视频理解的评估。
  • HourVideo设计了18个子任务,包括总结、感知、视觉推理和导航任务。
  • 数据集的生成过程包括视频筛选、候选问题生成、LLM优化与人工反馈、盲选和专家优化。
  • HourVideo的评估采用五选多任务问答(MCQ),并以准确率作为评估指标。
  • 实验中,盲LLM的准确率为19.6%,Socratic模型略高,原生多模态模型最高为37.3%,仍远低于人类专家的85.0%。
  • 未来计划扩展基准测试,纳入更多样化的视频来源和音频模态支持,同时关注隐私和伦理问题。
  • HourVideo项目的主要成员包括李飞飞和吴佳俊,以及其他研究人员。
➡️

继续阅读