X-VoE: 量化物理事件中的解释性违反期望
💡
原文约400字/词,阅读约需1分钟。
📝
内容提要
本文介绍了视觉蕴含任务和新数据集SNLI-VE,以及解决该任务的可解释视觉蕴含模型(EVE)。通过在SNLI-VE数据集上评估EVE和其他视觉问答模型,提供了对现代VQA模型性能的见解。
🎯
关键要点
-
介绍了视觉蕴含任务(VE),与传统文本蕴含(TE)任务不同。
-
视觉蕴含的前提是由图像定义的,而不是自然语言句子。
-
基于 Stanford 自然语言推理语料库和 Flickr30k,提出了新的数据集 SNLI-VE。
-
介绍了一种可解释的视觉蕴含模型(EVE)来解决 VE 问题。
-
对 EVE 和其他视觉问答(VQA)模型在 SNLI-VE 数据集上的评估提供了现代 VQA 模型性能的见解。
➡️