Freetalker:基于扩散模型的可控语音和文本驱动手势生成以增强演讲者自然度
原文中文,约400字,阅读约需1分钟。发表于: 。FreeTalker 是首个生成语音驱动的手势和文本驱动的演讲者动作的框架,使用来自多种动作数据集的异构数据,并利用扩散模型进行训练,以及利用无分类器引导和生成先验以实现平滑剪辑过渡。
通过LivelySpeaker框架实现了语义感知的共同语言手势生成,分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。利用预训练的CLIP文本嵌入生成与脚本高度语义对齐的手势,并设计了基于扩散的手势生成骨干,仅依赖音频信号。实验证明了该框架的优点,核心生成模型在基准测试中表现最先进。代码和模型将在未来发布。