小红花·文摘

这篇文章介绍了一种名为“Keypoint Action Tokens”（KAT）的框架，它利用现成的基于文本的Transformers模型，进行少量样本的视觉模仿学习。KAT框架在将视觉关键点观察转换成动作轨迹方面表现出色，性能与或优于现有技术。KAT为自然语言模型在任务中的重新应用提供了新途径。