自监督学习潜在表示中的偏差以生成共语手势视频
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对共语中的手势表示问题,提出了一种自监督学习的创新方法,利用扩散模型捕捉潜在运动特征和像素级运动偏差。实验结果显示,该方法显著提高了生成视频的质量,尤其在多个评估指标上优于现有的最先进方法。
论文介绍了为 GENEA Challenge 2023 开发的系统,使用扩散式运动合成模型。提出的对比语言和动作预训练(CSMP)模块学习语言和手势的联合嵌入,理解模态间的语义关系。CSMP 输出作为条件信号用于手势合成,实现语义感知的手势生成。系统在比赛中获得最高的人类相似度和语言适应性评分,显示出生成类人手势的潜力。