BriefGPT - AI 论文速递 ·

超越裸露询问：使用 3D 场景图进行开放词汇物体检索

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文介绍了一种开放词汇的3D场景图（OVSG），通过CLIP特征空间实现上下文感知的实体定位，支持自由文本查询。研究表明，OVSG在机器人导航和操作中表现优越，能够有效推断3D结构和检索图像，提升3D场景理解的性能。

🎯

❓

开放词汇的3D场景图（OVSG）是一种框架，用于将物体实例、代理和区域与自由文本查询关联，支持上下文感知的实体定位。

OVSG允许用户进行复杂的查询，例如'在厨房桌子上拿起一个杯子'，通过上下文感知的实体定位实现。

研究表明，OVSG在机器人导航和操作中表现优越，能够有效推断3D结构并提升场景理解性能。

OVSG与传统基于语义的物体定位方法不同，它支持自由文本输入和开放词汇查询，处理更复杂的场景。

通过与ScanNet数据集和自采集数据集的比较实验，OVSG的性能明显超越了以前的基于语义的定位技术。

OVSG在真实世界的机器人导航和操作实验中展示了其有效性，提升了3D场景理解的性能。

🏷️