小红花·文摘

该研究介绍了使用WavLM预训练模型的生成模型“diffmotion-v2”，能够通过原始语音音频产生个体化和风格化的全身共说手势。实验验证了该模型合成具有不同风格的自然共说手势的能力。