基础到高级的分层传播模型实现详细的文本到动作合成
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种基础到高级的分层扩散模型(B2A-HDM),用于协同利用低维和高维扩散模型进行高质量的详细动作合成,其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。
本文介绍了一种优先级中心的M2DM模型,利用基于Transformer的VQ-VAE得出离散的动作表示。该模型通过自注意机制和正则化项抵消代码坍塌,并采用噪声调度方式确定动作标记的重要性。实验证实该模型在保真度和多样性方面超过现有技术,尤其对于复杂的文本描述。