大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

南洋理工大学研究团队提出了Video Thinking Test(Video-TT)来评估AI的视频理解能力。研究显示,GPT-4o的准确率仅为36%,远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点,表明视频理解领域仍需提升。

🎯

关键要点

  • 南洋理工大学提出Video Thinking Test(Video-TT)评估AI视频理解能力。
  • 研究显示GPT-4o的准确率仅为36%,远低于人类的84.3%。
  • AI在模糊内容、场景区分和世界知识理解方面存在显著弱点。
  • Video-TT旨在分离AI的“看”与“想”能力,精准测量其理解和推理水平。
  • 现有视频理解基准测试存在缺陷,难以评估AI真实水平。
  • 长视频评测面临帧采样悖论,短视频评测存在天花板幻觉。
  • Video-TT设计了复杂问题以激发AI的思考能力,关注视觉和叙事复杂度。
  • AI思考的鲁棒性通过自然对抗性问题进行检验。
  • 评测结果显示人类在视频理解上遥遥领先于AI。
  • GPT-4o在复杂情节和世界知识理解上存在核心弱点,表现不佳。

延伸问答

Video Thinking Test(Video-TT)是什么?

Video-TT是南洋理工大学提出的一个新基准测试,用于评估AI在视频理解方面的能力。

GPT-4o在Video-TT测试中的表现如何?

GPT-4o在Video-TT测试中的准确率仅为36%,远低于人类的84.3%。

AI在视频理解方面存在哪些主要弱点?

AI在模糊内容识别、多场景区分和世界知识理解方面存在显著弱点。

Video-TT如何评估AI的思考能力?

Video-TT通过设计复杂问题,关注视觉和叙事复杂度,来评估AI的思考能力。

现有的视频理解基准测试存在哪些缺陷?

现有基准测试无法有效区分AI是因为未能“看清”还是未能“想明白”而出错。

人类在视频理解方面的表现如何?

人类在视频理解的准确率达到84.3%,鲁棒性为64.4%,表现远超AI。

➡️

继续阅读