3DAxiesPrompts:释放 GPT-4V 的三维空间任务能力

通过使用一种名为 3DAxiesPrompts(3DAP)的新型视觉提示方法,我们解放了 GPT-4V 在执行 3D 空间任务方面的能力。我们的研究发现,尽管 GPT-4V 在通过现有的视觉提示技术识别 2D 实体的位置和相互关系方面表现出熟练度,但其在处理 3D 空间任务方面的能力尚待探索。我们的方法是创建一个适用于 3D 图像的 3D 坐标系统,并带有注释的比例信息。通过将注入了...

gpt
发表于:
阅读原文