量子位 ·

BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

Dexterity-BEV通过将多来源机器人数据统一到三维空间，解决了具身智能面临的数据混乱问题。这一方法对齐了视觉和动作，整合了时间差异，提升了模型的泛化能力，标志着具身智能从数据堆积阶段进入数据秩序阶段，为行业规模化奠定基础。

🎯

🔎

具身智能行业正处于快速发展阶段，但面临着数据混乱和缺乏统一标准的问题。与自动驾驶早期相似，数据来自不同来源且缺乏协调，导致难以实现规模化。行业需要建立统一的数字空间，以便更有效地利用和训练数据。

Dexterity-BEV通过将多来源的机器人数据统一到三维空间，解决了数据混乱的问题。这一方法不仅提升了模型的泛化能力，还为具身智能的规模化奠定了基础，标志着行业从数据堆积阶段进入了数据秩序阶段。

Dexterity-BEV与自动驾驶中的BEV方法有相似之处，都是通过建立统一的物理空间来提升系统性能。BEV方法帮助自动驾驶从图像感知转向空间理解，而Dexterity-BEV则在具身智能中实现了感知与动作的统一，为行业发展提供了新的思路。

❓

Dexterity-BEV通过将多来源、多视角的机器人数据统一到一个BEV三维空间，解决了数据混乱问题，实现了视觉和动作的对齐。

具身智能面临的数据挑战包括高质量真实交互数据稀缺、数据高度异构、难以互通和统一训练。

Dexterity-BEV通过在统一的BEV空间中对齐视觉输入和机器人状态，使模型能够在不同场景和机器人平台上保持稳定表现，从而提升泛化能力。

Dexterity-BEV在相机视角、机器人基座和场景布局变化时，仍能保持稳定表现，而传统2D VLA方法在这些情况下成功率明显下降。

Dexterity-BEV通过将动作从具体关节解放出来，学习末端执行器在统一BEV空间中的位置和姿态，从而实现动作的对齐。

Dexterity-BEV标志着具身智能从数据堆积阶段进入数据秩序阶段，为行业规模化奠定了基础。

🏷️