基于下一个令牌预测的上下文模仿学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种通过模态对齐的方式进行预测的模型,用于训练人形控制。模型能够预测感觉运动轨迹,实现零样本的行走,并推广到未见过的命令。这种方法有望在学习真实世界控制任务方面取得进展。
🎯
关键要点
- 将人形控制视为下一个令牌预测问题,类似于语言中的下一个单词预测。
- 模型为因果变换器,通过自回归预测感觉运动轨迹进行训练。
- 采用模态对齐的方式进行预测,考虑数据的多模态性。
- 模型能够利用缺少模态的数据,例如没有行动的视频轨迹。
- 使用多种数据源进行模型训练,包括神经网络策略、基于模型的控制器、动作捕捉数据和人类的YouTube视频。
- 模型使真实尺寸的人形在旧金山实现零样本的行走。
- 即使只训练了27小时的行走数据,模型也能在真实世界中实现转移。
- 模型能够推广到未见过的命令,如后退行走。
- 这些发现表明通过生成建模的方式学习真实世界控制任务的潜力。
➡️