小红花·文摘

腾讯ARC Lab与香港城市大学推出的新基准Video-Holmes，旨在测试大模型在复杂视频推理中的能力。结果显示，所有大模型均未通过测试，反映出其推理能力的不足。该基准通过设计高难度问题，要求模型整合多个线索，以揭示推理能力的真实差距。