小红花·文摘

本研究提出了一种基于知识库的视觉问答模型，结合视觉知识检索和问题回答方法，显著提升了在OK-VQA挑战赛中的表现。该模型通过多模态框架和语言指导，在多个数据集上实现了高准确率，展示了知识增强视觉问答的潜力。