该研究介绍了使用WavLM预训练模型的生成模型“diffmotion-v2”,能够通过原始语音音频产生个体化和风格化的全身共说手势。实验验证了该模型合成具有不同风格的自然共说手势的能力。
完成下面两步后,将自动完成登录并继续当前操作。