本研究提出了一种多智能体投票框架,旨在改善现有知识视觉问答方法的不足。通过设计三种基于大型语言模型的智能体,模拟团队协作,并利用投票机制提升回答的准确性和有效性。
本文探讨了逆向视觉问答(iVQA)及其在视觉语言理解中的应用。提出了一种能够生成多样化且相关问题的iVQA模型,并研究了基于知识的视觉问答(KVQA),提出了新颖的集成方法(MAIL),在多个数据集上表现优异。结合任务特定模型与预训练语言模型,研究表明可以有效提升视觉问答的性能。
完成下面两步后,将自动完成登录并继续当前操作。