量子位 ·

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集，以评估长视频理解能力。该数据集包含500个第一人称视角的视频，时长20至120分钟，涵盖77种日常活动。实验结果表明，现有多模态模型在长视频理解方面的表现远低于人类专家，亟需改进。

🎯

🔎

随着多模态技术的发展，长视频理解变得愈发重要。HourVideo数据集的推出，旨在填补现有评估基准的不足，特别是在长视频的理解能力上。研究表明，现有模型在这一领域的表现远低于人类专家，显示出AI在处理复杂视觉信息时的局限性。

HourVideo采用了五选多任务问答（MCQ）作为评估指标，设计了18个子任务以全面测试模型的理解能力。这种方法不仅提高了评估的准确性，也为未来的多模态模型开发提供了新的思路，尤其是在长视频理解的任务设计上。

尽管HourVideo为长视频理解提供了新的基准，但研究团队也指出，AI在这一领域仍面临诸多挑战，包括任务设计的复杂性和评估成本的高昂。未来的研究将扩展视频来源，并关注隐私和伦理问题，这将是推动多模态技术发展的关键。

❓

HourVideo数据集旨在评估多模态模型对长视频理解的能力，填补现有评估基准的不足。

HourVideo数据集包含500个视频，时长在20至120分钟之间。

HourVideo采用五选多任务问答（MCQ）作为评估方法，以准确率作为评估指标。

现有多模态模型的表现远低于人类专家，最高准确率为37.3%，而人类专家为85.0%。

HourVideo设计了18个子任务，包括总结、感知、视觉推理和导航任务。

HourVideo项目的主要成员包括李飞飞和吴佳俊，以及其他研究人员。

🏷️