小红花·文摘

本文研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题，证明生成模型对数据分布变化不敏感，并在测试基准中表现更好。同时，多模态预训练可以提高OOD性能。此外，本文重新审视了自动VQA评估度量的假设，并证明它们会反复惩罚模型的正确响应。