腾讯ARC Lab与香港城市大学推出的新基准Video-Holmes,旨在测试大模型在复杂视频推理中的能力。结果显示,所有大模型均未通过测试,反映出其推理能力的不足。该基准通过设计高难度问题,要求模型整合多个线索,以揭示推理能力的真实差距。
完成下面两步后,将自动完成登录并继续当前操作。