本研究提出了SpatialPrompting框架,利用多模态大型语言模型实现三维环境中的零-shot空间推理。该框架通过关键帧驱动的提示生成策略,有效推断复杂的三维结构,展现出优越性能。
完成下面两步后,将自动完成登录并继续当前操作。