AMD:解剖运动扩散与可解释运动分解与融合
原文中文,约300字,阅读约需1分钟。发表于: 。通过利用大型语言模型解析输入的文本为与目标动作相对应的简明易懂的解剖脚本序列,本文提出了适应性运动扩散 (AMD) 模型,以解决现有方法难以处理复杂或长动作描述的问题。通过制定平衡输入文本和解剖脚本对逆扩散过程影响的两支融合方案,本方法能够自适应地确保合成动作的语义保真度和多样性。在包含较为复杂动作的数据集(例如 CLCD1 和 CLCD2)上的实验证明,我们的 AMD 显著优于现有的最先进模型。
本文介绍了优先级中心的M2DM模型,利用基于Transformer的VQ-VAE得出离散的动作表示。该模型通过自注意机制和正则化项抵消代码坍塌,并采用噪声调度方式确定动作标记的重要性。实验证实该模型在保真度和多样性方面超过现有技术,尤其对于复杂的文本描述。