机器之心 ·

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

新加坡国立大学研究团队提出GEAL（通用3D可交互学习），通过2D模型精确预测3D场景中的可交互区域，解决了3D数据标注的难题。GEAL利用3D Gaussian Splatting技术将稀疏点云转为2D图像，并通过跨模态对齐增强模型的鲁棒性和泛化能力。实验结果表明，GEAL在多种噪声环境下表现优异，为3D Affordance Learning提供了新思路。

🎯

关键要点

新加坡国立大学研究团队提出GEAL（通用3D可交互学习），解决3D数据标注难题。
GEAL利用3D Gaussian Splatting技术将稀疏点云转为2D图像，增强模型鲁棒性和泛化能力。
3D Affordance Learning旨在让模型自动推理物体可供操作的区域和空间位置。
3D数据获取与标注困难，导致高质量3D标注数据稀缺，影响模型泛化。
现有3D方法依赖几何与位置编码，难以从外观语义中获取上下文信息。
GEAL通过2D基础模型实现对3D场景中可交互区域的精确预测，无需额外3D数据。
GEAL采用跨模态一致性对齐，融合2D视觉与3D空间特征，提升泛化能力。
团队构建了新基准数据集评估模型在真实场景中的鲁棒性。
实验结果显示，GEAL在多种噪声环境下表现优异，超越现有方法。
GEAL的双分支架构与3D Gaussian Splatting结合，提升了可交互区域预测的可靠性。
通过颗粒度自适应融合模块和一致性对齐模块实现2D与3D特征的双向对齐。
GEAL在主流数据集上表现出更高的准确率，尤其在未见类别测试中保持高适应能力。
GEAL在真实干扰环境中展现出优异的鲁棒性，证明了跨模态对齐的重要性。
该成果为机器人操作、增强现实和智能家居等领域提供了新思路，具有重要意义。

🔎

延伸解读

3D Affordance Learning的重要性

3D Affordance Learning在机器人操作和人机交互中扮演着关键角色。通过自动推理物体的可操作区域，智能体能够更好地理解环境，从而提高操作效率和准确性。这一技术的进步将推动智能家居和增强现实等领域的发展。

GEAL的创新技术

GEAL通过3D Gaussian Splatting技术将稀疏点云转化为2D图像，解决了3D数据标注的困难。这种方法不仅降低了对大规模3D标注数据的依赖，还通过跨模态对齐提升了模型的鲁棒性和泛化能力，适应复杂的真实环境。

实验结果的意义

GEAL在多种噪声环境下的优异表现，表明其在真实应用中的潜力。尤其是在未见类别测试中保持高准确率，显示了其强大的适应能力。这为未来的3D场景理解和交互提供了新的技术基础，值得关注。

❓

延伸问答

GEAL是什么技术，它解决了什么问题？

GEAL（通用3D可交互学习）是一种通过2D模型预测3D场景中可交互区域的技术，解决了3D数据标注困难的问题。

GEAL如何提高3D Affordance Learning的鲁棒性？

GEAL通过跨模态一致性对齐，融合2D视觉与3D空间特征，显著提升模型的鲁棒性和泛化能力。

GEAL在实验中表现如何？

实验结果显示，GEAL在多种噪声环境下表现优异，超越现有方法，尤其在未见类别测试中保持高准确率。

GEAL使用了哪些关键技术？

GEAL使用了3D Gaussian Splatting技术将稀疏点云转为2D图像，并采用颗粒度自适应融合模块和一致性对齐模块。

GEAL的应用领域有哪些？

GEAL在机器人操作、增强现实和智能家居等领域具有重要应用潜力。

GEAL如何处理3D数据的稀疏性和标注困难？

GEAL通过利用2D基础模型，无需额外收集与标注大规模3D数据，实现对3D场景中可交互区域的精确预测。

🏷️