PD-TPE: 并行解码器与文本引导的位置编码用于 3D 视觉定位
发表于: 。通过双分支解码器的视觉 - 语言模型 PD-TPE,我们提出了一种 3D 视觉定位方法,其中两个分支并行进行提案特征解码和环境布局感知,通过不同的文本引导位置编码方法,有效地定位目标物体并提供布局信息。在两个广泛采用的 3D 视觉定位数据集 ScanRefer 和 NR3D 上,我们的方法优于现有技术 1.8% 和 2.2%。
通过双分支解码器的视觉 - 语言模型 PD-TPE,我们提出了一种 3D 视觉定位方法,其中两个分支并行进行提案特征解码和环境布局感知,通过不同的文本引导位置编码方法,有效地定位目标物体并提供布局信息。在两个广泛采用的 3D 视觉定位数据集 ScanRefer 和 NR3D 上,我们的方法优于现有技术 1.8% 和 2.2%。