利用大型语言模型改进自动 VQA 评估
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题,证明生成模型对数据分布变化不敏感,并在测试基准中表现更好。同时,多模态预训练可以提高OOD性能。此外,本文重新审视了自动VQA评估度量的假设,并证明它们会反复惩罚模型的正确响应。
🎯
关键要点
- 研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题。
- 生成模型对数据分布变化不敏感,并在测试基准中表现更好。
- 多模态预训练可以提高OOD性能。
- 重新审视了自动VQA评估度量的假设,证明其严格性会反复惩罚模型的正确响应。
➡️