小红花·文摘

该研究介绍了一种新颖的多模态模型，通过叠加视觉标记在 RGB 图像上，实现了对特定区域的理解，并在区域理解任务上取得了最先进的性能。研究还提出了ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。