该文章介绍了一个新的视觉问答(VQA)数据集,用于评估和特征化视觉语言模型。研究结果显示,现有模型在低级别理解任务上取得了进步,但在高级任务上表现不佳,VQA准确度下降了38.0%。此外,目前的模型与人类理解的一致性模式不匹配,表明模型行为的新出现结构。
完成下面两步后,将自动完成登录并继续当前操作。