LaMP:用于运动生成、检索和描述的语言-运动预训练
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
MMM运动生成模型通过将3D人体动作转化为潜空间中的离散标记序列,实现高保真和快速的动作生成。它使用条件掩码动画变换器来捕捉动作标记之间的依赖性,并与文本标记进行语义映射,支持细粒度文本描述的动作解码。MMM还支持动作编辑,通过掩码标记实现平滑过渡。实验显示,MMM在生成质量和速度上优于现有方法,并支持身体部位修改和动作插值等高级编辑功能。
🎯
关键要点
- MMM运动生成模型旨在解决实时性、高保真度和动作可编辑性之间的权衡。
- 通过将3D人体动作转化为潜空间中的离散标记序列,MMM实现了高保真度和高速度的动作生成。
- MMM使用条件掩码动画变换器捕捉动作标记之间的依赖性,并与文本标记进行语义映射。
- MMM支持细粒度文本描述的动作解码,实现多个动作标记的并行和迭代解码。
- MMM具有动作可编辑性,通过掩码标记实现平滑过渡。
- 实验表明,MMM在生成质量和速度上优于现有方法,FID得分分别为0.08和0.429。
- MMM提供身体部位修改、动作插值和长动作序列合成等高级编辑功能。
- 与可编辑动作扩散模型相比,MMM在单个中档GPU上的速度提高了两个数量级。
➡️