机器人轻松模仿人类,还能泛化到不同任务和智能体!微软新研究,学习人类和机器人统一动作表示

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

微软推出IGOR方法,通过图像目标表示让机器人模仿人类动作。IGOR利用互联网视频数据,创建统一动作表示空间,实现跨任务知识迁移。其框架包括潜在动作模型、策略模型和世界模型,能在不同任务中应用。

🎯

关键要点

  • 微软推出IGOR方法,通过图像目标表示让机器人模仿人类动作。
  • IGOR利用互联网视频数据,创建统一动作表示空间,实现跨任务知识迁移。
  • IGOR框架包括潜在动作模型、策略模型和世界模型,能在不同任务中应用。
  • 潜在动作模型(LAM)将视觉变化压缩为低维向量,提升模型泛化性。
  • World Model根据历史视频帧和潜在动作生成未来视频帧,支持物体独立移动。
  • 策略模型根据视频帧和文本指令预测智能体动作,提升任务成功率。
  • IGOR通过大量视频学习动作表示,实现机器人轻松模仿人类动作。
➡️

继续阅读