基于下一个令牌预测的上下文模仿学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种通过模态对齐的方式进行预测的模型,用于训练人形控制。模型能够预测感觉运动轨迹,实现零样本的行走,并推广到未见过的命令。这种方法有望在学习真实世界控制任务方面取得进展。

🎯

关键要点

  • 将人形控制视为下一个令牌预测问题,类似于语言中的下一个单词预测。
  • 模型为因果变换器,通过自回归预测感觉运动轨迹进行训练。
  • 采用模态对齐的方式进行预测,考虑数据的多模态性。
  • 模型能够利用缺少模态的数据,例如没有行动的视频轨迹。
  • 使用多种数据源进行模型训练,包括神经网络策略、基于模型的控制器、动作捕捉数据和人类的YouTube视频。
  • 模型使真实尺寸的人形在旧金山实现零样本的行走。
  • 即使只训练了27小时的行走数据,模型也能在真实世界中实现转移。
  • 模型能够推广到未见过的命令,如后退行走。
  • 这些发现表明通过生成建模的方式学习真实世界控制任务的潜力。
➡️

继续阅读