空间智能版ImageNet来了!李飞飞吴佳俊团队出品

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。

🎯

关键要点

  • 斯坦福大学的李飞飞和吴佳俊团队推出HourVideo数据集,用于评估长视频理解能力。

  • HourVideo数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。

  • 实验结果显示,现有多模态模型在长视频理解方面的表现远低于人类专家。

  • HourVideo旨在填补现有评估基准的不足,特别是对长视频理解的评估。

  • HourVideo设计了18个子任务,包括总结、感知、视觉推理和导航任务。

  • 数据集的生成过程包括视频筛选、候选问题生成、LLM优化与人工反馈、盲选和专家优化。

  • HourVideo的评估采用五选多任务问答(MCQ),并以准确率作为评估指标。

  • 实验中,盲LLM的准确率为19.6%,Socratic模型略高,原生多模态模型最高为37.3%,仍远低于人类专家的85.0%。

  • 未来计划扩展基准测试,纳入更多样化的视频来源和音频模态支持,同时关注隐私和伦理问题。

  • HourVideo项目的主要成员包括李飞飞和吴佳俊,以及其他研究人员。

延伸问答

HourVideo数据集的主要目的是什么?

HourVideo数据集旨在评估多模态模型对长视频理解的能力,填补现有评估基准的不足。

HourVideo数据集中包含多少个视频,时长范围是多少?

HourVideo数据集包含500个视频,时长在20至120分钟之间。

HourVideo的评估方法是什么?

HourVideo采用五选多任务问答(MCQ)作为评估方法,以准确率作为评估指标。

现有多模态模型在长视频理解方面的表现如何?

现有多模态模型的表现远低于人类专家,最高准确率为37.3%,而人类专家为85.0%。

HourVideo数据集设计了哪些子任务?

HourVideo设计了18个子任务,包括总结、感知、视觉推理和导航任务。

HourVideo项目的主要成员有哪些?

HourVideo项目的主要成员包括李飞飞和吴佳俊,以及其他研究人员。

🏷️

标签

➡️

继续阅读