量子位 ·

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

南洋理工大学研究团队提出了Video Thinking Test（Video-TT）来评估AI的视频理解能力。研究显示，GPT-4o的准确率仅为36%，远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点，表明视频理解领域仍需提升。

🎯

关键要点

南洋理工大学提出Video Thinking Test（Video-TT）评估AI视频理解能力。
研究显示GPT-4o的准确率仅为36%，远低于人类的84.3%。
AI在模糊内容、场景区分和世界知识理解方面存在显著弱点。
Video-TT旨在分离AI的“看”与“想”能力，精准测量其理解和推理水平。
现有视频理解基准测试存在缺陷，难以评估AI真实水平。
长视频评测面临帧采样悖论，短视频评测存在天花板幻觉。
Video-TT设计了复杂问题以激发AI的思考能力，关注视觉和叙事复杂度。
AI思考的鲁棒性通过自然对抗性问题进行检验。
评测结果显示人类在视频理解上遥遥领先于AI。
GPT-4o在复杂情节和世界知识理解上存在核心弱点，表现不佳。

❓

延伸问答

Video Thinking Test（Video-TT）是什么？

Video-TT是南洋理工大学提出的一个新基准测试，用于评估AI在视频理解方面的能力。

GPT-4o在Video-TT测试中的表现如何？

GPT-4o在Video-TT测试中的准确率仅为36%，远低于人类的84.3%。

AI在视频理解方面存在哪些主要弱点？

AI在模糊内容识别、多场景区分和世界知识理解方面存在显著弱点。

Video-TT如何评估AI的思考能力？

Video-TT通过设计复杂问题，关注视觉和叙事复杂度，来评估AI的思考能力。

现有的视频理解基准测试存在哪些缺陷？

现有基准测试无法有效区分AI是因为未能“看清”还是未能“想明白”而出错。

人类在视频理解方面的表现如何？

人类在视频理解的准确率达到84.3%，鲁棒性为64.4%，表现远超AI。

🏷️

继续阅读

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
Endava如何围绕AI代理重新设计软件交付
Endava是一家全球技术服务公司，专注于利用AI解决复杂商业问题。公司重新设计工作流程，推动AI在软件交付和日常运营中的应用，提升效率。AI不仅被开发团...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
读：AI 会杀死开源社区吗？从 Emacs 的故事说起
文章讨论了AI对开源社区，特别是Emacs社区的影响。Matei Candea和Sacha Chua探讨了AI如何改变学习和参与的方式。虽然AI为新手提供...
通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...