结构之法算法之道 ·

视觉语言机器人的大爆发：从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

OpenAI与Figure合作推出了人形机器人，可以与人类自然对话并完成任务。机器人通过图像和语音输入，经过OpenAI的多模态模型处理后，输出语言和行为结果。机器人的动作预测和执行分为两步，首先进行常识推理得出高级计划，然后通过大模型生成动作，由全身控制器跟踪。机器人的行为由Transformer策略驱动。

🎯

关键要点

OpenAI与Figure合作推出人形机器人，能够与人类自然对话并完成任务。
机器人通过图像和语音输入，利用OpenAI的多模态模型处理后输出语言和行为结果。
机器人的动作预测和执行分为两步：常识推理得出高级计划，然后通过大模型生成动作。
机器人行为由Transformer策略驱动，属于端到端的控制系统。
OpenAI的VLM模型使机器人能够与世界交互，具备短期记忆和常识推理能力。
机器人动作的预测与执行包括高级计划形成和高速生成具体动作。

❓

延伸问答

Figure人形机器人是如何与人类自然对话的？

Figure人形机器人通过图像和语音输入，利用OpenAI的多模态模型处理后输出语言和行为结果。

OpenAI与Figure的合作有什么重要意义？

这次合作使得人形机器人能够流畅地与人类互动并完成任务，推动了机器人技术的发展。

机器人动作的预测和执行是如何进行的？

机器人动作的预测和执行分为两步：首先进行常识推理得出高级计划，然后通过大模型生成具体动作。

OpenAI的VLM模型在机器人中起什么作用？

OpenAI的VLM模型提供视觉推理和语言理解，使机器人能够与世界交互并具备短期记忆和常识推理能力。

Figure人形机器人如何处理复杂的指令？

机器人通过常识推理将模棱两可的请求转化为适合上下文的具体行为，例如递给对方一个苹果。

机器人行为是如何确保安全和稳定的？

机器人行为由全身控制器跟踪，确保安全、稳定的动力，如保持平衡。

🏷️