通过运动解耦扩散模型生成共说手势视频
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
本论文描述了一个基于扩散式运动合成模型的系统,用于开发GENEA Challenge 2023。该系统使用对比语言和动作预训练模块,实现语义感知的共言语手势生成。在参赛作品中获得了最高的人类相似度和语言适应性评分,是一种有前途的方法。