EMAGE: 通过掩码音频手势建模实现统一的整体共时手势生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本论文描述了一个基于扩散式运动合成模型的系统,用于GENEA Challenge 2023。该系统使用对比语言和动作预训练模块,实现语义感知的共言语手势生成。在比赛中获得最高的人类相似度和语言适应性评分,是一种有前途的方法。

🎯

关键要点

  • 本论文描述了一个基于扩散式运动合成模型的系统,用于GENEA Challenge 2023。

  • 提出了对比语言和动作预训练(CSMP)模块,学习语言和手势的联合嵌入。

  • CSMP模块旨在学习语言和手势之间的语义耦合关系。

  • CSMP模块的输出作为扩散式手势合成模型中的条件信号,实现语义感知的共言语手势生成。

  • 参赛作品获得最高的人类相似度和语言适应性评分,表明该系统是一种有前途的方法。

➡️

继续阅读