机器人轻松模仿人类,还能泛化到不同任务和智能体!微软新研究,学习人类和机器人统一动作表示
💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
微软推出IGOR方法,通过图像目标表示让机器人模仿人类动作。IGOR利用互联网视频数据,创建统一动作表示空间,实现跨任务知识迁移。其框架包括潜在动作模型、策略模型和世界模型,能在不同任务中应用。
🎯
关键要点
- 微软推出IGOR方法,通过图像目标表示让机器人模仿人类动作。
- IGOR利用互联网视频数据,创建统一动作表示空间,实现跨任务知识迁移。
- IGOR框架包括潜在动作模型、策略模型和世界模型,能在不同任务中应用。
- 潜在动作模型(LAM)将视觉变化压缩为低维向量,提升模型泛化性。
- World Model根据历史视频帧和潜在动作生成未来视频帧,支持物体独立移动。
- 策略模型根据视频帧和文本指令预测智能体动作,提升任务成功率。
- IGOR通过大量视频学习动作表示,实现机器人轻松模仿人类动作。
➡️