The Berkeley Artificial Intelligence Research Blog ·

我们准备好进行多图像推理了吗？推出VHs：视觉干草堆基准！

💡 原文英文，约1700词，阅读约需6分钟。

📝

内容提要

介绍了Visual Haystacks（VHs）Benchmark，用于评估大型多模态模型（LMMs）在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难，尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式，通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。

🎯

关键要点

Visual Haystacks（VHs）基准用于评估大型多模态模型（LMMs）在处理大量图像数据时的能力。
现有的LMMs在处理大量图像时存在困难，尤其是在视觉干扰的情况下。
引入了名为MIRAGE的新训练范式，通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。
VHs基准分为单针挑战和多针挑战，旨在测试模型准确定位和分析相关图像的能力。
实验结果显示，现有LMMs在处理视觉干扰和多图像推理时表现不佳。
MIRAGE通过引入查询感知压缩模型和动态过滤无关图像的检索器来解决MIQA任务中的核心挑战。
MIRAGE在单针任务上表现出色，并在多图像任务中显著优于其他竞争模型。
建议未来的LMM项目使用Visual Haystacks框架进行基准测试，以识别和纠正潜在缺陷。

❓

延伸问答

什么是Visual Haystacks基准？

Visual Haystacks（VHs）基准用于评估大型多模态模型在处理大量图像数据时的能力，特别是在视觉检索和推理方面。

现有的多模态模型在处理多图像时面临哪些挑战？

现有的多模态模型在处理多图像时，尤其在视觉干扰存在的情况下，表现不佳，难以准确定位和分析相关图像。

MIRAGE训练范式是如何改善多图像推理性能的？

MIRAGE通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能，解决了相关图像检索和信息整合的核心挑战。

Visual Haystacks基准分为哪两种挑战？

Visual Haystacks基准分为单针挑战和多针挑战，分别测试模型在仅有一张目标图像和多张目标图像情况下的表现。

MIRAGE在单针任务上的表现如何？

MIRAGE在单针任务上表现出色，尽管其单图像问答基础较弱，但在处理多图像任务时显著优于其他竞争模型。

未来的多模态模型项目应如何使用Visual Haystacks框架？

未来的多模态模型项目应使用Visual Haystacks框架进行基准测试，以识别和纠正潜在缺陷，推动人工通用智能的发展。

🏷️