小红花·文摘

本研究提出了VAGUE基准数据集，包含3900个间接人类表达与场景配对，旨在提升视觉语言模型对模糊沟通的理解。研究发现，主流模型在复杂语言和视觉推理任务中仍表现不佳。