人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合,机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试,零样本成功率达到80%,整体任务成功率为58.5%,显著优于传统方法。
🎯
关键要点
- UC伯克利等团队研发的LeVERB框架实现了人形机器人视觉感知与运动控制的结合。
- 机器人能够根据语言指令自动完成复杂动作,如坐下、跨过箱子等。
- LeVERB框架通过零样本部署,成功率达到80%,整体任务成功率为58.5%。
- LeVERB框架打通了视觉语义理解与物理运动之间的断层,使机器人能像人类一样从“想”到“做”。
- 框架由高层LeVERB-VL和底层LeVERB-A组成,分别负责理解指令和执行动作。
- LeVERB-Bench是首个面向人形机器人WBC的视觉-语言闭环基准,包含超过150个任务。
- LeVERB-Bench通过真实的轨迹数据和多样化的任务设置,增强了数据集的丰富性。
- 实验结果表明,LeVERB框架在复杂视觉-语言任务中具备良好的泛化能力。
- 团队成员中有半数为华人学者,项目负责人薛浩儒和廖启源分别来自UC伯克利和CMU。
❓
延伸问答
LeVERB框架的主要功能是什么?
LeVERB框架实现了人形机器人视觉感知与运动控制的结合,使机器人能够根据语言指令自动完成复杂动作。
LeVERB框架的成功率如何?
在Unitree G1机器人上测试,零样本成功率达到80%,整体任务成功率为58.5%。
LeVERB框架是如何实现从“想”到“做”的?
LeVERB框架通过高层的视觉-语言理解和底层的动作执行系统,将语言指令转化为可执行的动作。
LeVERB-Bench基准的目的是什么?
LeVERB-Bench是为人形机器人WBC任务提供的视觉-语言闭环基准,旨在增强数据集的丰富性和评估模型的泛化能力。
LeVERB框架的团队成员背景如何?
LeVERB团队有半数成员为华人学者,主要负责人薛浩儒和廖启源分别来自UC伯克利和CMU。
LeVERB框架与传统方法相比有什么优势?
LeVERB框架在复杂视觉-语言任务中具备良好的泛化能力,成功率显著高于传统方法,能更有效地处理复杂任务。
➡️