学习用于多模式失语类型检测的共言手势

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于 LivelySpeaker 框架的语义感知的共同语言手势生成方法,分为基于脚本的手势生成和基于音频引导的节奏细化两个阶段。该方法利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势,并通过基于扩散的手势生成骨干将脚本引导的手势与音频信号相结合。

🎯

关键要点

  • 该文介绍了一种基于 LivelySpeaker 框架的语义感知的共同语言手势生成方法。
  • 方法分为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。
  • 基于脚本的手势生成利用预先训练的 CLIP 文本嵌入生成与脚本高度语义对齐的手势。
  • 设计了一个基于扩散的手势生成骨干,依赖音频信号生成逼真的手势。
  • 将脚本引导的手势与音频信号相结合,尤其在零样本设置下表现良好。
  • 两阶段生成框架支持多种应用,如改变手势风格和通过文本提示编辑手势。
  • 大量实验证明该框架相对竞争方法的优点,核心生成模型在基准测试中表现优异。
  • 代码和模型将在未来发布以促进研究。
➡️

继续阅读