基于扩散的联合文本和音频表征的共语言手势生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该系统使用现有的扩散式运动合成模型和对比语言和动作预训练模块,实现了语义感知的共言语手势生成。在GENEA Challenge 2023比赛中获得了最高的人类相似度和语言适应性评分,是一种有前途的方法。

🎯

关键要点

  • 该系统基于现有的扩散式运动合成模型开发。

  • 提出了对比语言和动作预训练(CSMP)模块,学习语言和手势的联合嵌入。

  • CSMP模块旨在学习语言和手势之间的语义耦合关系。

  • CSMP模块的输出作为扩散式手势合成模型中的条件信号。

  • 实现了语义感知的共言语手势生成。

  • 在GENEA Challenge 2023比赛中获得最高的人类相似度和语言适应性评分。

  • 该系统被认为是一种有前途的方法,能够生成携带语义含义的类人共言语手势。

➡️

继续阅读