我们准备好进行多图像推理了吗?推出VHs:视觉干草堆基准!
💡
原文英文,约1700词,阅读约需6分钟。
📝
内容提要
介绍了Visual Haystacks(VHs)Benchmark,用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难,尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。
🎯
关键要点
- Visual Haystacks(VHs)基准用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。
- 现有的LMMs在处理大量图像时存在困难,尤其是在视觉干扰的情况下。
- 引入了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。
- VHs基准分为单针挑战和多针挑战,旨在测试模型准确定位和分析相关图像的能力。
- 实验结果显示,现有LMMs在处理视觉干扰和多图像推理时表现不佳。
- MIRAGE通过引入查询感知压缩模型和动态过滤无关图像的检索器来解决MIQA任务中的核心挑战。
- MIRAGE在单针任务上表现出色,并在多图像任务中显著优于其他竞争模型。
- 建议未来的LMM项目使用Visual Haystacks框架进行基准测试,以识别和纠正潜在缺陷。
➡️