大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
南洋理工大学研究团队提出了Video Thinking Test(Video-TT)来评估AI的视频理解能力。研究显示,GPT-4o的准确率仅为36%,远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点,表明视频理解领域仍需提升。
🎯
关键要点
- 南洋理工大学提出Video Thinking Test(Video-TT)评估AI视频理解能力。
- 研究显示GPT-4o的准确率仅为36%,远低于人类的84.3%。
- AI在模糊内容、场景区分和世界知识理解方面存在显著弱点。
- Video-TT旨在分离AI的“看”与“想”能力,精准测量其理解和推理水平。
- 现有视频理解基准测试存在缺陷,难以评估AI真实水平。
- 长视频评测面临帧采样悖论,短视频评测存在天花板幻觉。
- Video-TT设计了复杂问题以激发AI的思考能力,关注视觉和叙事复杂度。
- AI思考的鲁棒性通过自然对抗性问题进行检验。
- 评测结果显示人类在视频理解上遥遥领先于AI。
- GPT-4o在复杂情节和世界知识理解上存在核心弱点,表现不佳。
❓
延伸问答
Video Thinking Test(Video-TT)是什么?
Video-TT是南洋理工大学提出的一个新基准测试,用于评估AI在视频理解方面的能力。
GPT-4o在Video-TT测试中的表现如何?
GPT-4o在Video-TT测试中的准确率仅为36%,远低于人类的84.3%。
AI在视频理解方面存在哪些主要弱点?
AI在模糊内容识别、多场景区分和世界知识理解方面存在显著弱点。
Video-TT如何评估AI的思考能力?
Video-TT通过设计复杂问题,关注视觉和叙事复杂度,来评估AI的思考能力。
现有的视频理解基准测试存在哪些缺陷?
现有基准测试无法有效区分AI是因为未能“看清”还是未能“想明白”而出错。
人类在视频理解方面的表现如何?
人类在视频理解的准确率达到84.3%,鲁棒性为64.4%,表现远超AI。
➡️