小红花·文摘

本文提出了一种结合Transformer架构和DistilBert语言嵌入的空间语言模型，应用于3D视觉定位和对象预测。研究在ReferIt3D数据集上展示了竞争性表现，并探讨了多模态参考解析任务及其挑战，旨在提升机器人与人类的互动能力。此外，介绍了Chat-3D系统，能够理解3D场景指令并进行复杂推理，表现优于现有模型。