MambaPlace:基于文本到点云的跨模态地点识别与注意机制
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有视觉语言地点识别方法在跨模态交互动态捕捉中的不足。提出了一种新颖的端到端的MambaPlace框架,通过文本注意力和点云处理技术实现文本描述与三维点云的融合与增强。实验结果表明,MambaPlace在KITTI360Pose数据集上显著提高了定位精度,具有重要的应用潜力。
我们提出了一种新型的神经网络Text2Loc,通过自然语言描述实现了基于3D点云定位,并解释了点与文本之间的语义关系。使用分层Transformer和最大池化捕获了文本提示之间的关系动态,使用文本子图对比学习保持了正负样本平衡。提出了一种无匹配精细定位方法,提升了位置预测准确性。在KITTI360Pose数据集上,Text2Loc定位准确度提升了2倍。