MRAG-Bench:以视觉为中心的检索增强多模态模型评估
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究多图像视觉问答任务,提出“可视的干草堆”基准来评估模型处理无关图像的能力。我们引入MIRAGE框架,专注于提升LMMs在MIQA任务中的效率和准确性。评估结果显示,MIRAGE在基准测试中表现优于闭源模型,并提高了多阶段方法的效率。
🎯
关键要点
- 本文研究多图像视觉问答(MIQA)任务,旨在生成相关和基于真实情境的回答。
- 提出了新的公共基准“可视的干草堆(VHs)”,用于评估大型多模态模型处理无关图像的能力。
- 评估表明,即使强大的闭源模型也面临重大挑战。
- 引入新的检索/问答框架MIRAGE,专门针对LMMs的MIQA挑战,提升效率和准确性。
- MIRAGE在VHs基准上超过闭源的GPT-4o模型多达11%,并在多阶段方法上实现高达3.4倍的效率改进。
➡️