BloomVQA:评估层次化多模态理解
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一个新颖的视觉问答(VQA)数据集,基于为教育幼儿而设计的图片故事,旨在通过理解任务对视觉语言模型进行全面评估和特征化。该数据集包含不同层次的理解任务和底层认知过程,可以映射到基于图形的视觉故事表示,实现自动数据增强和模型一致性特征。我们的结果表明,尽管现有模型在低级别理解任务上取得了最大的进步,但在需要更高级理解和认知技能的高级任务上,它们普遍表现不佳,最高级别任务的 VQA...
该文章介绍了一个新的视觉问答(VQA)数据集,用于评估和特征化视觉语言模型。研究结果显示,现有模型在低级别理解任务上取得了进步,但在高级任务上表现不佳,VQA准确度下降了38.0%。此外,目前的模型与人类理解的一致性模式不匹配,表明模型行为的新出现结构。