遥感视觉问答中的语言偏见诅咒:空间属性、语言多样性和明确评估的作用
原文约400字/词,阅读约需1分钟。发表于: 。遥感视觉问答(RSVQA)是通过自然语言实现人机交互,利用航空图像为大众提供了新的机会。然而,RSVQA 中的语言偏见问题往往被忽视,而这会影响模型的健壮性并导致关于模型表现的错误结论。因此,本研究旨在通过视觉盲模型、对抗性测试和数据集分析三个方面来凸显 RSVQA 中的语言偏见问题,并提出更具信息量和互补性的评估指标,力求透明地传达未来 RSVQA 方法的结果。
本文综述了视觉问答(VQA)领域的研究进展,重点讨论了VQA方法中存在的偏见问题以及评估指标和去偏见方法的发展。同时还分析了VQA中的视觉与语言预训练模型的稳健性,并探讨了未来研究的关键领域。