SpeechAct: 从语音生成全身动作

原文约300字，阅读约需1分钟。发表于：。

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

该研究使用量化多种身体部位的运动为其各自领域定制的码本，通过预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。实验证明了该方法的有效性和广泛应用的潜力。