基于表现性潜变空间的无监督人机动作转接

利用深度学习方法实现人到机器人动作重定向，无需人与机器人动作数据对齐，构建共享的潜空间并进行机器人运动控制，通过简单线性插值生成中间动作，多种输入模态下的机器人控制全面评估，与现有工作相比，在增加自然人机沟通的能力和提升机器人融入日常生活的信任度方面展示了有效性。

本文介绍了一种基于 Transformer 的 VQ-VAE 模型，用于逆扩散过程中的动作表示。该模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

M2DM Transformer VQ-VAE 保真度动作表示