小红花·文摘

南洋理工大学研究团队提出了Video Thinking Test（Video-TT）来评估AI的视频理解能力。研究显示，GPT-4o的准确率仅为36%，远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点，表明视频理解领域仍需提升。