结构之法算法之道 ·

Hi Robot——大脑加强版的π0：基于「VLM的高层推理+ VLA低层任务执行」的复杂指令跟随及交互式反馈

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

本文探讨了Hi Robot的背景及其在具身智能中的应用。Hi Robot结合视觉语言模型（VLM）进行高层推理，处理复杂指令和反馈，提升机器人任务执行能力。通过合成数据和用户交互，Hi Robot展现出比传统系统更强的灵活性和适应性。

🎯

🔎

Hi Robot通过结合视觉语言模型（VLM）和低层次策略（VLA），实现了复杂指令的处理和动态反馈的整合。这种分层架构使得机器人能够在执行任务时，灵活应对用户的实时干预，提升了任务执行的适应性和灵活性。

Hi Robot允许用户在任务执行的各个阶段进行干预，这种设计不仅增强了用户体验，还提高了机器人的任务执行效率。用户的反馈能够即时影响机器人的决策过程，使得机器人在复杂环境中更具反应能力。

Hi Robot的训练依赖于人工标注和合成生成的数据，这种方法确保了模型能够学习到丰富的上下文信息和复杂的指令。通过遥操作收集的演示数据和合成的用户交互提示，模型得以在多样化的场景中进行有效训练。

❓

Hi Robot结合视觉语言模型进行高层推理，处理复杂指令和反馈，提升机器人任务执行能力。

用户可以在策略执行的任何阶段进行干预，提供反馈，系统会立即触发高层推理以重新计算任务。

Hi Robot展现出比传统系统更强的灵活性和适应性，能够处理更复杂的提示和人类交互。

Hi Robot使用人工标注和合成生成的交互数据，通过遥操作收集机器人演示数据，并生成用户提示和插话。

Hi Robot的模型架构模块化，低级策略和高级策略使用相同的基础视觉语言模型，并通过微调进行训练。

Hi Robot通过高层推理将复杂提示转换为适合机器人执行的低层指令，从而实现复杂指令的执行。

🏷️