X-VoE: 量化物理事件中的解释性违反期望

💡 原文约400字/词,阅读约需1分钟。
📝

内容提要

本文介绍了视觉蕴含任务和新数据集SNLI-VE,以及解决该任务的可解释视觉蕴含模型(EVE)。通过在SNLI-VE数据集上评估EVE和其他视觉问答模型,提供了对现代VQA模型性能的见解。

🎯

关键要点

  • 介绍了视觉蕴含任务(VE),与传统文本蕴含(TE)任务不同。

  • 视觉蕴含的前提是由图像定义的,而不是自然语言句子。

  • 基于 Stanford 自然语言推理语料库和 Flickr30k,提出了新的数据集 SNLI-VE。

  • 介绍了一种可解释的视觉蕴含模型(EVE)来解决 VE 问题。

  • 对 EVE 和其他视觉问答(VQA)模型在 SNLI-VE 数据集上的评估提供了现代 VQA 模型性能的见解。

➡️

继续阅读