本文提出了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法。通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,处理语音和头部以及嘴唇之间的短期和长期关联。实验结果表明,该方法在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。
本文介绍了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法,通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,提高了头部动作质量和多尺度音频视觉同步。
完成下面两步后,将自动完成登录并继续当前操作。