BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

本文研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题,证明生成模型对数据分布变化不敏感,并在测试基准中表现更好。同时,多模态预训练可以提高OOD性能。此外,本文重新审视了自动VQA评估度量的假设,并证明它们会反复惩罚模型的正确响应。

Vision-and-Language模型 多模态预训练 样本分布偏移 自动VQA评估度量 视觉问答任务 语言模型

相关推荐 去reddit讨论