LaMP:用于运动生成、检索和描述的语言-运动预训练

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

MMM运动生成模型通过将3D人体动作转化为潜空间中的离散标记序列,实现高保真和快速的动作生成。它使用条件掩码动画变换器来捕捉动作标记之间的依赖性,并与文本标记进行语义映射,支持细粒度文本描述的动作解码。MMM还支持动作编辑,通过掩码标记实现平滑过渡。实验显示,MMM在生成质量和速度上优于现有方法,并支持身体部位修改和动作插值等高级编辑功能。

🎯

关键要点

  • MMM运动生成模型旨在解决实时性、高保真度和动作可编辑性之间的权衡。
  • 通过将3D人体动作转化为潜空间中的离散标记序列,MMM实现了高保真度和高速度的动作生成。
  • MMM使用条件掩码动画变换器捕捉动作标记之间的依赖性,并与文本标记进行语义映射。
  • MMM支持细粒度文本描述的动作解码,实现多个动作标记的并行和迭代解码。
  • MMM具有动作可编辑性,通过掩码标记实现平滑过渡。
  • 实验表明,MMM在生成质量和速度上优于现有方法,FID得分分别为0.08和0.429。
  • MMM提供身体部位修改、动作插值和长动作序列合成等高级编辑功能。
  • 与可编辑动作扩散模型相比,MMM在单个中档GPU上的速度提高了两个数量级。
➡️

继续阅读