小红花·文摘

该文章介绍了一个新的视觉问答（VQA）数据集，用于评估和特征化视觉语言模型。研究结果显示，现有模型在低级别理解任务上取得了进步，但在高级任务上表现不佳，VQA准确度下降了38.0%。此外，目前的模型与人类理解的一致性模式不匹配，表明模型行为的新出现结构。