小红花·文摘

本研究提出了一种视觉位置提示（VPP）方法，旨在解决多模态大语言模型（MLLMs）在视觉定位任务中坐标与空间信息对齐的问题。VPP-LLaVA通过全局和局部视觉位置提示机制，显著提升了模型在标准定位基准上的性能。