小红花·文摘

本文探讨了逆向视觉问答（iVQA）及其在视觉语言理解中的应用。提出了一种能够生成多样化且相关问题的iVQA模型，并研究了基于知识的视觉问答（KVQA），提出了新颖的集成方法（MAIL），在多个数据集上表现优异。结合任务特定模型与预训练语言模型，研究表明可以有效提升视觉问答的性能。