利用大型语言模型改进自动 VQA 评估
借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
本文研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题,证明生成模型对数据分布变化不敏感,并在测试基准中表现更好。同时,多模态预训练可以提高OOD性能。此外,本文重新审视了自动VQA评估度量的假设,并证明它们会反复惩罚模型的正确响应。