本研究提出了PRIMA模型,克服了现有像素定位模型仅适用于单图像的局限性,填补了多图像理解中缺乏像素级定位的空白。PRIMA结合了像素级定位与多图像推理能力,实验结果表明其性能优于现有基准模型。
本研究介绍了VLUE基准,用于评估视觉语言模型(VLP)的泛化能力和效率。研究发现现有模型在处理未见图像时存在泛化差距,并提出MMStar基准以解决数据泄漏问题。评估多种视觉语言模型(VLM)显示它们在多图像推理任务中表现不佳,强调了进一步研究的必要性。
完成下面两步后,将自动完成登录并继续当前操作。