X-VoE: 量化物理事件中的解释性违反期望

本研究介绍了 X-VoE，一个全面基准数据集，用于评估人工智能代理对直观物理的理解。在 X-VoE 中，每个 VoE 场景包含三个不同的设置，探测模型对事件及其潜在解释的理解能力。通过 X-VoE 的实验结果显示，我们的模型在与人类常识进行测试时具有很好的一致性，并能通过重建隐藏场景来解释 VoE 事件。通过 X-VoE，我们推动了人类直观物理能力的人工智能发展。

本文介绍了视觉蕴含任务和新数据集SNLI-VE，以及解决该任务的可解释视觉蕴含模型（EVE）。通过在SNLI-VE数据集上评估EVE和其他视觉问答模型，提供了对现代VQA模型性能的见解。

VQA模型可解释模型数据集视觉蕴含评估