基于扩散的自回归运动模型DART:实时文本驱动的运动控制
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了文本驱动的人类运动生成面临的挑战,特别是如何创建连续且复杂的动作,以响应长期文本描述。提出的DART模型通过结合运动历史和文本输入,使用潜在扩散模型学习紧凑的运动原语空间,实现了实时的动作生成,并在运动现实性、效率和可控性方面超越了现有基线。
本文介绍了一种优先级中心的运动分散扩散模型(M2DM),利用基于Transformer的VQ-VAE生成简洁的动作表示。通过全局自注意机制和正则化项解决代码坍塌问题,并创新性地根据动作重要性进行噪声调度。实验显示,该模型在HumanML3D和KIT-ML数据集上表现优异,尤其在复杂文本描述下,保真度和多样性超过现有技术。