Fg-T2M:基于扩散模型的精细文本驱动人体运动生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于 Transformer 的 VQ-VAE 的优先级中心的 M2DM 模型,用于逆扩散过程中的动作表示。该模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
🎯
关键要点
- 本文介绍了一种基于 Transformer 的 VQ-VAE 的优先级中心的运动分散扩散模型(M2DM)。
- M2DM 模型通过全局自注意机制和正则化项来抵消代码坍塌,得出简洁的、离散的动作表示。
- 提出了一种创新的噪声调度方式,根据运动序列中每个动作标记的重要性来确定。
- 该方法在逆扩散过程中保留了最显著的动作,产生更丰富多样的语义动作。
- 在 HumanML3D 和 KIT-ML 数据集上的实验表明,模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
➡️