量子位 ·

机器人轻松模仿人类，还能泛化到不同任务和智能体！微软新研究，学习人类和机器人统一动作表示

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

微软推出IGOR方法，通过图像目标表示让机器人模仿人类动作。IGOR利用互联网视频数据，创建统一动作表示空间，实现跨任务知识迁移。其框架包括潜在动作模型、策略模型和世界模型，能在不同任务中应用。

🎯

🔎

IGOR方法利用互联网视频数据，解决了高质量机器人数据稀缺的问题。这种创新的数据来源不仅降低了成本，还能丰富模型的训练数据，使得机器人在模仿人类动作时更加灵活和高效。

IGOR框架由潜在动作模型、策略模型和世界模型组成，三者协同工作，提升了机器人在不同任务中的表现。特别是潜在动作模型的低维表示，增强了模型的泛化能力，使得机器人能够在未见任务中也能表现出色。

IGOR的设计允许机器人在不同任务和智能体之间进行知识迁移。这意味着，机器人不仅能模仿人类的动作，还能在不同场景中灵活应用这些动作，展现出更高的适应性和智能水平。

❓

IGOR方法通过图像目标表示让机器人模仿人类动作，实现跨任务和智能体的知识迁移。

IGOR框架包括潜在动作模型（LAM）、策略模型和世界模型。

LAM将视觉变化压缩为低维向量，通过最小化重建损失进行训练，从而学习潜在动作表示。

世界模型根据历史视频帧和潜在动作生成未来视频帧，支持物体的独立移动。

策略模型通过结合视频帧和文本指令预测智能体动作，丰富输入信息，从而提升任务成功率。

IGOR利用互联网视频数据展示的人类活动，减少对高质量机器人数据的依赖。

🏷️