Helix——Figure 02上的通用人形VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解)
💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
Helix是首款高速控制的人形机器人,能够灵活应对复杂家庭场景。通过结合快慢系统,Helix实现高效的视觉语言理解与动作执行,支持自然语言指令,提升操作的泛化能力和效率。
🎯
关键要点
- Helix是首款高速控制的人形机器人,能够灵活应对复杂家庭场景。
- Helix结合快慢系统,实现高效的视觉语言理解与动作执行。
- Helix支持自然语言指令,提升操作的泛化能力和效率。
- Helix是第一个对整个人形上身进行高速率连续控制的VLA。
- Helix能够在两个机器人上同时运行,解决共享的远程操作任务。
- Helix配备的机器人可以根据自然语言提示拿起几乎任何小型家居物品。
- Helix使用一组神经网络权重学习所有行为,无需针对特定任务的微调。
- Helix通过组合快系统和慢系统,解决了VLM主干速度与通用性之间的权衡。
- Helix的系统1和系统2分别负责快速推理和深度思考,协同工作。
- Helix的操作频率达到200Hz,显著高于其他模型如π0和RT-2。
- Helix的训练数据集包含约500小时的多机器人、多操作员数据。
- Helix经过完全端到端的训练,无需针对特定任务的调整。
- Helix的推理管道分为S2(高级潜在规划)和S1(低级控制),支持高效并行部署。
❓
延伸问答
Helix机器人如何实现高效的视觉语言理解?
Helix通过结合快慢系统,利用系统1进行快速推理,系统2进行深度思考,从而实现高效的视觉语言理解与动作执行。
Helix与其他人形机器人相比有什么优势?
Helix的操作频率达到200Hz,显著高于其他模型如π0和RT-2,且无需针对特定任务的微调,具备更强的泛化能力。
Helix是如何处理自然语言指令的?
Helix通过将自然语言指令转化为潜在向量,结合视觉信息,快速生成相应的动作指令。
Helix的训练数据集包含哪些内容?
Helix的训练数据集包含约500小时的多机器人、多操作员数据,涵盖各种远程操作行为。
Helix的双系统架构是如何工作的?
Helix的双系统架构由系统1和系统2组成,系统1负责快速反应,系统2负责深度思考,两者协同工作以实现高效控制。
Helix如何解决家庭场景中的复杂任务?
Helix通过其强大的泛化能力和无需微调的特性,能够灵活应对家庭场景中的复杂多变任务。
➡️