小红花·文摘

本文探讨了视觉问题回答（VQA）中的视觉定位方法，提出了新系统和度量标准，以提升模型在处理不完美图像时的性能。研究强调了视觉提示和开放式视觉定位的潜力，并展示了新基准数据集SK-VG的有效性，以增强视觉与语言信息的对齐。