小红花·文摘

本文介绍了视觉蕴含（VE）任务及其与传统文本蕴含（TE）任务的区别。提出了SNLI-VE数据集和可解释的视觉蕴含模型（EVE）。通过在SNLI-VE数据集上评估EVE和其他VQA模型，揭示了现代VQA模型性能的见解。