本文探讨了逆向视觉问答(iVQA)及其在视觉语言理解中的应用。提出了一种能够生成多样化且相关问题的iVQA模型,并研究了基于知识的视觉问答(KVQA),提出了新颖的集成方法(MAIL),在多个数据集上表现优异。结合任务特定模型与预训练语言模型,研究表明可以有效提升视觉问答的性能。
完成下面两步后,将自动完成登录并继续当前操作。