MMM:生成遮蔽动作模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

基于掩码动作模型的MMM运动生成范例解决了实时性、高保真度和动作可编辑性之间的权衡。通过转换成离散标记序列和预测随机掩码动作标记的条件掩码动画变换器,MMM捕捉了动作标记之间的依赖性和与文本标记的语义映射。实验表明,MMM在生成高质量动画方面超过了当前领先的方法,并提供了先进的编辑功能。与可编辑动作扩散模型相比,MMM速度提高了两个数量级。

🎯

关键要点

  • MMM运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。
  • MMM通过将3D人体动作转换成离散标记序列,捕捉动作标记之间的依赖性和与文本标记的语义映射。
  • MMM实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码。
  • MMM具有固有的动作可编辑性,可以在需要编辑的位置放置掩码标记,自动填充空白部分。
  • 实验表明,MMM在生成高质量动画方面超过了当前领先的方法,FID得分分别为0.08和0.429。
  • MMM提供了身体部位修改、动作插值和长动作序列合成等先进的编辑功能。
  • 与可编辑动作扩散模型相比,MMM在单个中档GPU上的速度提高了两个数量级。
➡️

继续阅读