情感驱动的 3D 人体动画通过解缠的潜在扩散
原文中文,约300字,阅读约需1分钟。发表于: 。AMUSE 是一种基于潜在扩散的情感驱动人体动画模型,通过将语音驱动的内容与另一个语音序列的情绪和风格相结合,从而直接从语音合成具有表达情绪和风格控制的 3D 人体动作序列。
该研究介绍了使用WavLM预训练模型的生成模型“diffmotion-v2”,能够通过原始语音音频产生个体化和风格化的全身共说手势。实验验证了该模型合成具有不同风格的自然共说手势的能力。
AMUSE 是一种基于潜在扩散的情感驱动人体动画模型,通过将语音驱动的内容与另一个语音序列的情绪和风格相结合,从而直接从语音合成具有表达情绪和风格控制的 3D 人体动作序列。
该研究介绍了使用WavLM预训练模型的生成模型“diffmotion-v2”,能够通过原始语音音频产生个体化和风格化的全身共说手势。实验验证了该模型合成具有不同风格的自然共说手势的能力。