我们准备好进行多图像推理了吗?推出VHs:视觉干草堆基准!

💡 原文英文,约1700词,阅读约需6分钟。
📝

内容提要

介绍了Visual Haystacks(VHs)Benchmark,用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难,尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。

🎯

关键要点

  • Visual Haystacks(VHs)基准用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。
  • 现有的LMMs在处理大量图像时存在困难,尤其是在视觉干扰的情况下。
  • 引入了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。
  • VHs基准分为单针挑战和多针挑战,旨在测试模型准确定位和分析相关图像的能力。
  • 实验结果显示,现有LMMs在处理视觉干扰和多图像推理时表现不佳。
  • MIRAGE通过引入查询感知压缩模型和动态过滤无关图像的检索器来解决MIQA任务中的核心挑战。
  • MIRAGE在单针任务上表现出色,并在多图像任务中显著优于其他竞争模型。
  • 建议未来的LMM项目使用Visual Haystacks框架进行基准测试,以识别和纠正潜在缺陷。
➡️

继续阅读