X-VoE: 量化物理事件中的解释性违反期望
原文约400字/词,阅读约需1分钟。发表于: 。本研究介绍了 X-VoE,一个全面基准数据集,用于评估人工智能代理对直观物理的理解。在 X-VoE 中,每个 VoE 场景包含三个不同的设置,探测模型对事件及其潜在解释的理解能力。通过 X-VoE 的实验结果显示,我们的模型在与人类常识进行测试时具有很好的一致性,并能通过重建隐藏场景来解释 VoE 事件。通过 X-VoE,我们推动了人类直观物理能力的人工智能发展。
本文介绍了视觉蕴含任务和新数据集SNLI-VE,以及解决该任务的可解释视觉蕴含模型(EVE)。通过在SNLI-VE数据集上评估EVE和其他视觉问答模型,提供了对现代VQA模型性能的见解。