量子位 ·

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

UC伯克利等团队研发的LeVERB框架首次实现人形机器人视觉感知与运动控制的结合，机器人能够根据语言指令自动完成复杂动作。在Unitree G1机器人上测试，零样本成功率达到80%，整体任务成功率为58.5%，显著优于传统方法。

🎯

🔎

LeVERB框架通过将视觉感知与运动控制结合，首次实现了人形机器人从理解指令到执行动作的无缝转变。这一创新不仅提升了机器人的自主性，还为未来的智能机器人应用奠定了基础，尤其是在复杂环境中的任务执行能力。

在Unitree G1机器人上的测试结果显示，LeVERB框架在复杂视觉-语言任务中表现出色，零样本成功率达到80%。这一成果表明，LeVERB框架在实际应用中具有良好的泛化能力，能够适应不同的环境和任务，未来可能广泛应用于服务机器人和自动化领域。

LeVERB-Bench作为首个面向人形机器人全身控制的视觉-语言闭环基准，提供了丰富的任务数据和评估标准。这一基准的建立将推动人形机器人领域的研究进展，帮助研究者更好地评估和优化机器人在复杂任务中的表现。

❓

LeVERB框架实现了人形机器人视觉感知与运动控制的结合，使机器人能够根据语言指令自动完成复杂动作。

在Unitree G1机器人上测试，零样本成功率达到80%，整体任务成功率为58.5%。

LeVERB框架通过高层的视觉-语言理解和底层的动作执行系统，将语言指令转化为可执行的动作。

LeVERB-Bench是为人形机器人WBC任务提供的视觉-语言闭环基准，旨在增强数据集的丰富性和评估模型的泛化能力。

LeVERB团队有半数成员为华人学者，主要负责人薛浩儒和廖启源分别来自UC伯克利和CMU。

LeVERB框架在复杂视觉-语言任务中具备良好的泛化能力，成功率显著高于传统方法，能更有效地处理复杂任务。

🏷️