小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了MMVU基准，用于评估基础模型在视频理解中的表现。该基准通过专家标注的问题，推动模型应对复杂推理需求。尽管现有模型有所提升，但仍未达到人类专家水平。

MMVU：测量专家级多学科视频理解

BriefGPT - AI 论文速递 ·

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

机器之心 ·