本文提出了一种结合Transformer架构和DistilBert语言嵌入的空间语言模型,应用于3D视觉定位和对象预测。研究在ReferIt3D数据集上展示了竞争性表现,并探讨了多模态参考解析任务及其挑战,旨在提升机器人与人类的互动能力。此外,介绍了Chat-3D系统,能够理解3D场景指令并进行复杂推理,表现优于现有模型。
完成下面两步后,将自动完成登录并继续当前操作。