本研究提出了PRIMA模型,克服了现有像素定位模型仅适用于单图像的局限性,填补了多图像理解中缺乏像素级定位的空白。PRIMA结合了像素级定位与多图像推理能力,实验结果表明其性能优于现有基准模型。
完成下面两步后,将自动完成登录并继续当前操作。