无法回答的视觉问答
原文中文,约400字,阅读约需1分钟。发表于: 。本研究旨在构建一个值得信赖的 AI 系统,通过为 Visual Question Answering(VQA)模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白,该数据集特别设计用于解决无法回答的问题。同时,通过对图像或问题进行有意的扰动,充分评估了多模式大型模型的零或少样本性能,并提出了解决这些无法回答问题的简单方法。这一数据集将为提升...
本文综述了视觉问答(VQA)领域的发展和问题,包括记忆训练数据中的偏见和稳健性问题。近年来,已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文重点讨论了数据集的发展、评估指标、去偏见方法的类型学和代表性视觉与语言预训练模型的稳健性。最后,探讨了未来研究的关键领域。