本研究提出了VAGUE基准数据集,包含3900个间接人类表达与场景配对,旨在提升视觉语言模型对模糊沟通的理解。研究发现,主流模型在复杂语言和视觉推理任务中仍表现不佳。
完成下面两步后,将自动完成登录并继续当前操作。