小红花·文摘

本文研究了Vision-and-Language模型在视觉问答任务中的样本分布偏移问题，证明生成模型对数据分布变化不敏感，并在测试基准中表现更好。同时，多模态预训练可以提高OOD性能。此外，本文重新审视了自动VQA评估度量的假设，并证明它们会反复惩罚模型的正确响应。

BriefGPT - AI 论文速递 ·

CLIP-TD是一种自适应选择标记的蒸馏方法，适用于视觉-语言任务。在低量数据和领域迁移条件下，CLIP-TD在视觉常识推理、视觉蕴涵推理和视觉问答任务上获得了最先进的性能。

BriefGPT - AI 论文速递 ·