DOrA:具有顺序感的三维视觉连接

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的三维视觉定位方法,用于单视角RGBD图像。该方法通过融合语言和视觉特征生成热图来定位相关区域,并通过自适应特征学习和对象级匹配来最终定位被引用的对象。实验证明,该方法在ScanRefer和SUNRefer数据集上相比现有方法有较大的提升。

🎯

关键要点

  • 提出了一种用于单视角RGBD图像的三维视觉定位新方法。
  • 该方法通过融合语言和视觉特征生成热图来粗略定位相关区域。
  • 采用自适应特征学习和对象级匹配来最终定位被引用的对象。
  • 在ScanRefer和SUNRefer数据集上的实验表明,该方法相比现有方法有显著提升。
  • 在ScanRefer数据集上提升了11.2%,在SUNRefer数据集上提升了15.6%。
➡️

继续阅读