细粒度迟期交互多模态检索用于检索增强视觉问答
原文中文,约200字,阅读约需1分钟。发表于: 。Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the...
该研究提出了一种联合训练方案,包括可微分的DPR集成答案生成,以端到端的方式进行训练。实验表明,该方案优于最近的OK-VQA系统。同时,引入了新的诊断指标来分析检索和生成之间的交互作用,模型的强大检索能力显着降低了训练所需的检索文档数量,从而在答案质量和训练所需的计算方面产生了显着的收益。