小红花·文摘

本研究提出了PRIMA模型，克服了现有像素定位模型仅适用于单图像的局限性，填补了多图像理解中缺乏像素级定位的空白。PRIMA结合了像素级定位与多图像推理能力，实验结果表明其性能优于现有基准模型。

BriefGPT - AI 论文速递 ·

本研究介绍了VLUE基准，用于评估视觉语言模型（VLP）的泛化能力和效率。研究发现现有模型在处理未见图像时存在泛化差距，并提出MMStar基准以解决数据泄漏问题。评估多种视觉语言模型（VLM）显示它们在多图像推理任务中表现不佳，强调了进一步研究的必要性。

BriefGPT - AI 论文速递 ·