CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

新加坡国立大学研究团队提出GEAL(通用3D可交互学习),通过2D模型精确预测3D场景中的可交互区域,解决了3D数据标注的难题。GEAL利用3D Gaussian Splatting技术将稀疏点云转为2D图像,并通过跨模态对齐增强模型的鲁棒性和泛化能力。实验结果表明,GEAL在多种噪声环境下表现优异,为3D Affordance Learning提供了新思路。

🎯

关键要点

  • 新加坡国立大学研究团队提出GEAL(通用3D可交互学习),解决3D数据标注难题。
  • GEAL利用3D Gaussian Splatting技术将稀疏点云转为2D图像,增强模型鲁棒性和泛化能力。
  • 3D Affordance Learning旨在让模型自动推理物体可供操作的区域和空间位置。
  • 3D数据获取与标注困难,导致高质量3D标注数据稀缺,影响模型泛化。
  • 现有3D方法依赖几何与位置编码,难以从外观语义中获取上下文信息。
  • GEAL通过2D基础模型实现对3D场景中可交互区域的精确预测,无需额外3D数据。
  • GEAL采用跨模态一致性对齐,融合2D视觉与3D空间特征,提升泛化能力。
  • 团队构建了新基准数据集评估模型在真实场景中的鲁棒性。
  • 实验结果显示,GEAL在多种噪声环境下表现优异,超越现有方法。
  • GEAL的双分支架构与3D Gaussian Splatting结合,提升了可交互区域预测的可靠性。
  • 通过颗粒度自适应融合模块和一致性对齐模块实现2D与3D特征的双向对齐。
  • GEAL在主流数据集上表现出更高的准确率,尤其在未见类别测试中保持高适应能力。
  • GEAL在真实干扰环境中展现出优异的鲁棒性,证明了跨模态对齐的重要性。
  • 该成果为机器人操作、增强现实和智能家居等领域提供了新思路,具有重要意义。

延伸问答

GEAL是什么技术,它解决了什么问题?

GEAL(通用3D可交互学习)是一种通过2D模型预测3D场景中可交互区域的技术,解决了3D数据标注困难的问题。

GEAL如何提高3D Affordance Learning的鲁棒性?

GEAL通过跨模态一致性对齐,融合2D视觉与3D空间特征,显著提升模型的鲁棒性和泛化能力。

GEAL在实验中表现如何?

实验结果显示,GEAL在多种噪声环境下表现优异,超越现有方法,尤其在未见类别测试中保持高准确率。

GEAL使用了哪些关键技术?

GEAL使用了3D Gaussian Splatting技术将稀疏点云转为2D图像,并采用颗粒度自适应融合模块和一致性对齐模块。

GEAL的应用领域有哪些?

GEAL在机器人操作、增强现实和智能家居等领域具有重要应用潜力。

GEAL如何处理3D数据的稀疏性和标注困难?

GEAL通过利用2D基础模型,无需额外收集与标注大规模3D数据,实现对3D场景中可交互区域的精确预测。

➡️

继续阅读