结构之法算法之道 ·

3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

本文讨论了3D VLA及其相关模型，重点介绍了PointVLA的背景和重要性。PointVLA将点云信息融入视觉-语言-动作模型中，提升了机器人在三维空间的感知与操作能力，克服了现有模型对二维输入的依赖。

🎯

🔎

3D VLA模型通过引入点云信息，显著提升了机器人在三维空间中的感知能力。然而，现有模型仍然依赖于二维数据，这限制了其在复杂三维环境中的表现。理解这一点对于开发更高效的机器人系统至关重要。

PointVLA通过将点云信息直接注入到动作专家中，保持了视觉-语言骨干网络的完整性。这种方法不仅避免了对已有二维特征的破坏，还能有效利用现有的训练数据，降低了计算资源的消耗。

随着3D视觉输入的逐渐普及，未来的研究可以集中在如何进一步优化PointVLA的性能上。特别是在多样化的三维任务中，如何平衡二维与三维数据的使用，将是一个重要的研究课题。

❓

PointVLA是一种将点云信息融入视觉-语言-动作模型中的新框架，旨在提升机器人在三维空间的感知与操作能力。

PointVLA通过将点云信息直接注入到动作专家中，保持了视觉-语言骨干网络的完整性，从而克服了对二维输入的依赖。

VLA模型的强大性能依赖于训练数据的规模和质量，尤其是使用大量的高质量数据进行训练。

PointVLA构建于DexVLA之上，DexVLA使用了具有20亿参数的视觉语言模型作为主干。

现有的机器人模型主要依赖于二维视觉输入是因为缺乏全面的三维空间信息，这限制了机器人对环境的深刻理解。

PointVLA通过模块化块将三维点云信息注入到动作专家中，同时保持二维特征表示的完整性，以减少对训练模型性能的影响。

🏷️