LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)
💡
原文中文,约6800字,阅读约需17分钟。
📝
内容提要
LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型,结合高频控制与低频规划,通过合成数据训练,灵活执行指令。其创新在于分层架构,有效整合视觉与语言,提升机器人运动能力。
🎯
关键要点
- LeVERB是一个基于视觉-语言指令的人形机器人全身控制模型,结合高频控制与低频规划。
- LeVERB采用分层架构,有效整合视觉与语言,提升机器人运动能力。
- 该模型通过合成数据训练,能够灵活执行指令。
- LeVERB的创新在于引入了潜在视觉-语言编码,提升了人形机器人的表达能力。
- LeVERB的训练流程包括收集合成的动作重定向数据集,并用文本指令进行标注。
- LeVERB-VL和LeVERB-A分别处理视觉-语言输入和全身动作,形成双重处理架构。
- LeVERB-Bench是用于合成视觉-语言人形机器人WBC的数据集和基准测试。
- 该模型能够根据状态空间目标和视觉目标执行指令,具备高效的多模态融合能力。
- LeVERB通过运动学重建训练视觉-语言组件,实现视觉与动作语义的对齐。
- 该系统的设计旨在填补人形机器人全身控制领域的空白,推动机器人技术的发展。
➡️