Helix——Figure 02上的通用人形VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解)

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

Helix是首款高速控制的人形机器人,能够灵活应对复杂家庭场景。通过结合快慢系统,Helix实现高效的视觉语言理解与动作执行,支持自然语言指令,提升操作的泛化能力和效率。

🎯

关键要点

  • Helix是首款高速控制的人形机器人,能够灵活应对复杂家庭场景。
  • Helix结合快慢系统,实现高效的视觉语言理解与动作执行。
  • Helix支持自然语言指令,提升操作的泛化能力和效率。
  • Helix是第一个对整个人形上身进行高速率连续控制的VLA。
  • Helix能够在两个机器人上同时运行,解决共享的远程操作任务。
  • Helix配备的机器人可以根据自然语言提示拿起几乎任何小型家居物品。
  • Helix使用一组神经网络权重学习所有行为,无需针对特定任务的微调。
  • Helix通过组合快系统和慢系统,解决了VLM主干速度与通用性之间的权衡。
  • Helix的系统1和系统2分别负责快速推理和深度思考,协同工作。
  • Helix的操作频率达到200Hz,显著高于其他模型如π0和RT-2。
  • Helix的训练数据集包含约500小时的多机器人、多操作员数据。
  • Helix经过完全端到端的训练,无需针对特定任务的调整。
  • Helix的推理管道分为S2(高级潜在规划)和S1(低级控制),支持高效并行部署。

延伸问答

Helix机器人如何实现高效的视觉语言理解?

Helix通过结合快慢系统,利用系统1进行快速推理,系统2进行深度思考,从而实现高效的视觉语言理解与动作执行。

Helix与其他人形机器人相比有什么优势?

Helix的操作频率达到200Hz,显著高于其他模型如π0和RT-2,且无需针对特定任务的微调,具备更强的泛化能力。

Helix是如何处理自然语言指令的?

Helix通过将自然语言指令转化为潜在向量,结合视觉信息,快速生成相应的动作指令。

Helix的训练数据集包含哪些内容?

Helix的训练数据集包含约500小时的多机器人、多操作员数据,涵盖各种远程操作行为。

Helix的双系统架构是如何工作的?

Helix的双系统架构由系统1和系统2组成,系统1负责快速反应,系统2负责深度思考,两者协同工作以实现高效控制。

Helix如何解决家庭场景中的复杂任务?

Helix通过其强大的泛化能力和无需微调的特性,能够灵活应对家庭场景中的复杂多变任务。

➡️

继续阅读