我们准备好进行多图像推理了吗?推出VHs:视觉干草堆基准!
原文英文,约1700词,阅读约需6分钟。发表于: 。Humans excel at processing vast arrays of visual information, a skill that is crucial for achieving artificial general intelligence (AGI). Over the decades, AI researchers have developed Visual...
介绍了Visual Haystacks(VHs)Benchmark,用于评估大型多模态模型(LMMs)在处理大量图像数据时的能力。发现现有的LMMs在处理大量图像时存在困难,尤其是在存在视觉干扰的情况下。介绍了名为MIRAGE的新训练范式,通过压缩编码、使用检索器和增加多图像训练数据来改善MIQA任务的性能。提出了使用Visual Haystacks框架来评估模型性能的建议。