DiM-Gesture:自适应层归一化 Mamba-2 框架的共语手势生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过LivelySpeaker框架实现了语义感知的共同语言手势生成,方法包括基于脚本的手势生成和基于音频引导的节奏细化。实验证明该框架相对竞争方法具有优势,并在两个基准测试中取得最先进的性能。代码和模型将在未来发布。

🎯

关键要点

  • 通过LivelySpeaker框架实现语义感知的共同语言手势生成。

  • 方法分为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。

  • 基于脚本的手势生成利用预先训练的CLIP文本嵌入生成语义对齐的手势。

  • 设计了基于扩散的手势生成骨干,依赖音频信号生成逼真的手势。

  • 结合脚本引导的手势与音频信号,尤其在零样本设置下表现优异。

  • 框架支持多种应用,如改变手势风格和通过文本提示编辑手势。

  • 大量实验证明该框架相对竞争方法的优越性。

  • 核心基于扩散的生成模型在两个基准测试中取得最先进的性能。

  • 代码和模型将在未来发布以促进研究。

➡️

继续阅读