机器之心 ·

人类秒懂，AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

本文探讨了视觉语言模型（VLMs）在基础视觉线索关联能力上的表现，并提出了VLM²-Bench评测框架。研究发现，尽管VLMs在多图和视频处理上有所提升，但在视觉线索关联能力，尤其是人物识别任务中仍显不足。分析表明，语言和视觉中心的提示方法对模型性能有显著影响，并指出未来研究方向。

🎯

关键要点

本文探讨视觉语言模型（VLMs）在基础视觉线索关联能力上的表现。
提出VLM²-Bench评测框架，系统探究模型在“人类级基础视觉线索关联能力”上的表现。
强调视觉关联能力对人类日常生活的重要性，且不依赖于先验知识。
VLMs在多图和视频处理上有所提升，但视觉线索关联能力仍显不足。
VLM²-Bench设计涵盖通用线索、物体线索和人物线索的基础关联能力，共9个子任务，3060个测试案例。
实验发现大多数模型的准确率低于随机猜测，尤其在描述视频中出现的人物任务上表现差。
模型在关联人物线索上表现优于物体线索，可能因人物数据提供了更具区分度的文本锚点。
模型在视觉线索关联任务中存在共性短板，过度依赖线索的“连续可见性”。
探讨语言为中心和视觉为中心的提示方法对模型表现的影响，发现各有优劣。
未来研究方向需关注如何提升VLMs在视觉线索关联能力上的表现。

❓

延伸问答

VLM²-Bench是什么？

VLM²-Bench是一个评测框架，用于系统探究视觉语言模型在基础视觉线索关联能力上的表现。

视觉语言模型在视觉线索关联能力上存在哪些不足？

视觉语言模型在视觉线索关联能力上表现不足，尤其是在人物识别任务中，准确率低于随机猜测。

VLM²-Bench的设计包含哪些内容？

VLM²-Bench设计涵盖通用线索、物体线索和人物线索的基础关联能力，共9个子任务，3060个测试案例。

为什么视觉关联能力对人类日常生活重要？

视觉关联能力使人类能够在不同图片中识别相同的人或物体，而不依赖于先验知识，便于日常生活中的决策。

模型在视觉线索关联任务中存在什么共性短板？

模型在视觉线索关联任务中普遍依赖于线索的“连续可见性”，缺乏全局关联的动态视觉理解能力。

未来的研究方向是什么？

未来研究方向需关注如何提升视觉语言模型在视觉线索关联能力上的表现。

🏷️

继续阅读

麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
一个被AI圈嘲笑五十年的哲学家，最后证明他是对的吗？
哲学家休伯特·德雷福斯批判人工智能无法像人类一样理解世界。他在1972年出版的《计算机不能做什么》中指出，机器的智能无法替代人类的身体经验和情感。尽管AI...
人工智能论文评审：通过人类反馈训练语言模型以遵循指令（InstructGPT）
GPT-3在自然语言处理上取得了重大突破，但未能有效转化为助手。为此，OpenAI推出了InstructGPT，通过人类反馈训练模型更好地遵循指令，强调模...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
今年最值得升级的生产力工具，可能是一整张 AI 工位
文章讨论了在AI工具普及背景下，如何有效利用这些工具提升工作效率。推荐使用Gemini和Kimi进行信息搜索，飞书与Obsidian进行知识管理，以及Pl...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...