这篇文章介绍了一种名为“Keypoint Action Tokens”(KAT)的框架,它利用现成的基于文本的Transformers模型,进行少量样本的视觉模仿学习。KAT框架在将视觉关键点观察转换成动作轨迹方面表现出色,性能与或优于现有技术。KAT为自然语言模型在任务中的重新应用提供了新途径。
完成下面两步后,将自动完成登录并继续当前操作。