小红花·文摘

本研究提出了一种新颖的视觉提示方法——3DAxisPrompt，旨在提升多模态大型语言模型（MLLMs）在3D视觉理解方面的能力。研究表明，该方法能有效感知物体在真实场景中的3D位置，但单一提示方法在所有3D任务中的效果有限。