本研究提出了一种基于知识库的视觉问答模型,结合视觉知识检索和问题回答方法,显著提升了在OK-VQA挑战赛中的表现。该模型通过多模态框架和语言指导,在多个数据集上实现了高准确率,展示了知识增强视觉问答的潜力。
完成下面两步后,将自动完成登录并继续当前操作。