量子位 ·

原力灵机提出GeoVLA：让机器人看懂三维世界，打破2D视觉枷锁

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

原力灵机的GeoVLA框架解决了VLA模型在非结构化环境中的空间失明问题，通过双流架构结合点云数据，提升了机器人的三维感知能力。实验表明，GeoVLA在复杂任务中的成功率显著高于传统2D模型，尤其在视角和物体尺寸变化时表现出强大的鲁棒性。

🎯

🔎

GeoVLA采用双流架构，将语义理解与几何感知分开处理。这种解耦设计使得模型在复杂环境中能够更好地理解物体的空间位置，尤其在物体尺寸和视角变化时，表现出更高的鲁棒性。相比传统2D模型，GeoVLA在三维感知能力上有显著提升，适用于更广泛的应用场景。

GeoVLA在多个基准测试中展现出高达97.7%的成功率，尤其在物理仿真任务中表现优异。这表明其在真实世界应用中的潜力，尤其是在需要精确空间理解的任务中，如机器人抓取和操作。这种高成功率为未来的机器人应用提供了可靠的技术基础。

GeoVLA在分布外场景下的鲁棒性是其核心优势之一。在面对未见过的物体尺寸或视角变化时，GeoVLA依然能够保持较高的成功率。这种能力使得机器人在动态和复杂环境中更具适应性，降低了对特定训练数据的依赖，提升了实际应用的灵活性。

❓

GeoVLA框架通过双流架构结合点云数据，解决了VLA模型在非结构化环境中的空间失明问题，提升了机器人的三维感知能力。

GeoVLA采用点云嵌入网络PEN和空间感知动作专家3DAE，直接利用深度图生成的点云数据，赋予机器人三维几何感知能力。

GeoVLA在复杂任务中的成功率显著高于传统2D模型，在LIBERO基准测试中成功率达到97.7%。

GeoVLA在空间适应性和深度感知方面表现优异，尤其在物体尺寸变化和视角偏移时，成功率显著高于传统2D模型。

GeoVLA的核心逻辑是将任务解耦，VLM负责语义理解，点云网络负责几何感知。

GeoVLA在真实世界的鲁棒性测试中表现出色，尤其在视角变化和物体尺度变化的极端条件下，展现出强大的适应力。

🏷️