DOrA:具有顺序感的三维视觉连接
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的三维视觉定位方法,用于单视角RGBD图像。该方法通过融合语言和视觉特征生成热图来定位相关区域,并通过自适应特征学习和对象级匹配来最终定位被引用的对象。实验证明,该方法在ScanRefer和SUNRefer数据集上相比现有方法有较大的提升。
🎯
关键要点
- 提出了一种用于单视角RGBD图像的三维视觉定位新方法。
- 该方法通过融合语言和视觉特征生成热图来粗略定位相关区域。
- 采用自适应特征学习和对象级匹配来最终定位被引用的对象。
- 在ScanRefer和SUNRefer数据集上的实验表明,该方法相比现有方法有显著提升。
- 在ScanRefer数据集上提升了11.2%,在SUNRefer数据集上提升了15.6%。
➡️