超越裸露询问:使用 3D 场景图进行开放词汇物体检索
原文中文,约300字,阅读约需1分钟。发表于: 。通过提出模块化方法 BBQ(Beyond Bare Queries),结合构建 3D 场景空间图表示、套用大型语言模型以及深度推理算法,本研究成功实现了生成准确的 3D 物体中心地图、应用于开放词汇 3D 语义分割、并具备在复杂查询中通过使用空间关系检索物体的能力,并且其处理速度比最近的类似方法快大约三倍。
本文介绍了一种开放词汇的3D场景图(OVSG),用于将实体与自由文本查询关联。OVSG支持上下文感知的实体定位,能够处理复杂查询。实验证明,OVSG在语义定位方面的性能超越了以往技术,并在机器人导航和操作实验中得到实际应用。