EMAGE: 通过掩码音频手势建模实现统一的整体共时手势生成
原文中文,约300字,阅读约需1分钟。发表于: 。提出了 EMAGE 框架,从音频和掩码手势生成全身人体动作,包括面部、局部身体、手部和整体运动。该框架利用了 BEATX 数据集和掩码手势先验知识,通过联合训练实现音频生成手势和掩码手势重建,生成与音频同步的全面动作。
本论文描述了一个基于扩散式运动合成模型的系统,用于GENEA Challenge 2023。该系统使用对比语言和动作预训练模块,实现语义感知的共言语手势生成。在比赛中获得最高的人类相似度和语言适应性评分,是一种有前途的方法。