机器之心 ·

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。卡内基梅隆大学与华盛顿大学推出NaturalBench，评估视觉语言模型在自然图像理解上的能力。研究发现，现有模型在简单问题上表现不佳，受语言偏见影响。NaturalBench通过自然对抗样本进行评估，结果显示大多数模型的视觉理解和组合推理能力有限，需进一步提升。该数据集已开源，助力未来模型发展。

🎯

关键要点

AIxiv专栏促进学术交流，报道超过2000篇内容。
卡内基梅隆大学与华盛顿大学推出NaturalBench，评估视觉语言模型在自然图像理解上的能力。
研究发现现有模型在简单问题上表现不佳，受语言偏见影响。
NaturalBench通过自然对抗样本进行评估，结果显示大多数模型的视觉理解和组合推理能力有限。
NaturalBench数据集已开源，助力未来模型发展。
研究团队发现，流行的VQA基准存在盲猜问题，模型依赖语言偏见。
NaturalBench设计了配对任务，避免模型盲猜。
研究团队收集了10,000个高质量VQA样本用于评估。
实验结果显示，当前开源模型的表现有限，需提升视觉理解能力。
研究讨论了提升视觉语言模型的方向，包括减少盲选和提升组合性思维能力。
NaturalBench对动态评测具有重要意义，提升了动态基准构建的效率。
NaturalBench数据集已开源，期待未来更强大的视觉语言模型问世。

❓

延伸问答

NaturalBench是什么？

NaturalBench是由卡内基梅隆大学与华盛顿大学推出的视觉问答基准，用于评估视觉语言模型在自然图像理解上的能力。

研究发现现有视觉语言模型存在哪些问题？

研究发现现有模型在简单问题上表现不佳，主要受语言偏见影响，且存在盲猜问题。

NaturalBench如何评估视觉语言模型的能力？

NaturalBench通过自然对抗样本和配对任务评估模型，要求模型在两幅图片和两个问题的组合中正确回答。

如何解决视觉语言模型的盲猜问题？

通过设计配对任务，避免模型凭借语言偏见进行盲猜，从而提高模型的回答准确性。

NaturalBench数据集的开源对未来有什么影响？

NaturalBench数据集的开源将促进未来视觉语言模型的发展，帮助研究者提升模型的视觉理解能力。

研究团队对提升视觉语言模型的方向有哪些讨论？

研究团队讨论了减少盲选和提升组合性思维能力作为提升视觉语言模型的关键方向。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...