本文探讨基于文本描述的3D人体动作生成,提出了多角度注意机制和运动令牌方法,结合姿态估计和Motion Transformer模型,显著提升了运动检索和生成的性能。实验证明该方法在多个基准测试中优于现有技术。
本研究通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。实验证明了该方法的有效性和广泛应用的潜力。
完成下面两步后,将自动完成登录并继续当前操作。