空间智能版ImageNet来了!李飞飞吴佳俊团队出品
内容提要
斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。
关键要点
-
斯坦福大学的李飞飞和吴佳俊团队推出HourVideo数据集,用于评估长视频理解能力。
-
HourVideo数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。
-
实验结果显示,现有多模态模型在长视频理解方面的表现远低于人类专家。
-
HourVideo旨在填补现有评估基准的不足,特别是对长视频理解的评估。
-
HourVideo设计了18个子任务,包括总结、感知、视觉推理和导航任务。
-
数据集的生成过程包括视频筛选、候选问题生成、LLM优化与人工反馈、盲选和专家优化。
-
HourVideo的评估采用五选多任务问答(MCQ),并以准确率作为评估指标。
-
实验中,盲LLM的准确率为19.6%,Socratic模型略高,原生多模态模型最高为37.3%,仍远低于人类专家的85.0%。
-
未来计划扩展基准测试,纳入更多样化的视频来源和音频模态支持,同时关注隐私和伦理问题。
-
HourVideo项目的主要成员包括李飞飞和吴佳俊,以及其他研究人员。
延伸问答
HourVideo数据集的主要目的是什么?
HourVideo数据集旨在评估多模态模型对长视频理解的能力,填补现有评估基准的不足。
HourVideo数据集中包含多少个视频,时长范围是多少?
HourVideo数据集包含500个视频,时长在20至120分钟之间。
HourVideo的评估方法是什么?
HourVideo采用五选多任务问答(MCQ)作为评估方法,以准确率作为评估指标。
现有多模态模型在长视频理解方面的表现如何?
现有多模态模型的表现远低于人类专家,最高准确率为37.3%,而人类专家为85.0%。
HourVideo数据集设计了哪些子任务?
HourVideo设计了18个子任务,包括总结、感知、视觉推理和导航任务。
HourVideo项目的主要成员有哪些?
HourVideo项目的主要成员包括李飞飞和吴佳俊,以及其他研究人员。