机器之心 ·

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。北大与智元机器人团队提出OmniManip架构，解决视觉语言模型在机器人操作中的挑战，实现高效低层次动作。该系统通过双闭环设计显著提升操作性能，展现强大的零样本泛化能力。

🎯

🔎

OmniManip架构通过双闭环系统设计，解决了视觉语言模型在机器人操作中的关键挑战。该设计不仅提升了操作性能，还增强了模型在复杂环境中的适应能力，尤其是在3D理解方面的突破，显示出其在实际应用中的潜力。

在OmniManip中，交互基元的可靠性至关重要。由于传统方法依赖于2D图像，容易受到视角和环境因素的影响，导致采样不准确。OmniManip通过在3D规范空间中进行采样，克服了这些局限性，确保了更高的操作精度和鲁棒性。

实验结果显示，OmniManip在12个短程任务中表现出色，双闭环设计带来了约17%的性能提升。这一数据不仅验证了其设计的有效性，也为未来的机器人操作提供了新的思路，尤其是在处理复杂任务时的应用前景。

❓

OmniManip的主要创新点是引入了双闭环系统设计，结合了VLM规划和机器人执行，显著提升了操作性能。

OmniManip通过以物体为中心的3D交互基元和双闭环设计，克服了VLM在3D理解和低层次动作输出上的局限性。

在12个真机短程任务中，OmniManip展现出卓越的性能，双闭环系统设计带来了约17%的性能提升。

OmniManip的交互基元通过3D规范空间进行采样，克服了2D图像的局限性，确保了可靠性和准确性。

OmniManip作为一种免训练的开放词汇操作方法，具备强大的零样本泛化能力，能够在各种机器人操作任务中表现出色。

OmniManip通过双闭环设计和可靠的交互基元，显著提高了机器人操作的成功率，尤其在复杂任务中表现更佳。

🏷️