量子位 ·

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

腾讯ARC Lab与香港城市大学推出的新基准Video-Holmes，旨在测试大模型在复杂视频推理中的能力。结果显示，所有大模型均未通过测试，反映出其推理能力的不足。该基准通过设计高难度问题，要求模型整合多个线索，以揭示推理能力的真实差距。

🎯

🔎

Video-Holmes作为新基准，填补了现有视频推理测试的空白。它通过设计复杂的推理任务，能够更真实地反映模型的推理能力，而不仅仅是视觉感知。这种创新有助于推动视频推理领域的发展，促使研究者关注模型的综合推理能力。

测试结果显示，当前所有大模型在Video-Holmes测试中均未通过，反映出它们在信息串联和推理能力上的普遍不足。这一发现提示研究者在开发新模型时，需更加注重推理能力的提升，而不仅仅是视觉信息的处理。

Video-Holmes的相关资料和代码已开源，提供了一个良好的平台供研究者和开发者进行测试和改进。这种开放性不仅促进了学术交流，也为模型的进一步优化提供了便利，鼓励更多人参与到视频推理的研究中。

❓

Video-Holmes测试旨在评估大模型在复杂视频推理中的能力，特别是整合多个线索进行推理的能力。

所有大模型在Video-Holmes测试中均未通过，显示出其推理能力的不足。

Video-Holmes设计了高难度的推理任务，能够更有效地反映模型的推理能力，而现有基准主要评估视觉感知和接地能力。

测试中使用了270部短片，这些短片被人工标注并设计了高推理要求的单选题。

可以通过GitHub下载Video-Holmes，使用特定的命令行代码进行安装和测试。

Video-Holmes的相关资料和代码已开源，可以在GitHub和HuggingFace上找到。

🏷️