本文介绍了一种音频驱动人脸生成方法,通过改进唇部参考图像生成器、自适应三元损失和同步损失表达式,实现了口型同步、逼真的人脸视频生成,解决了唇部信息泄露和模型训练不稳定性等问题,提高了音频-视觉同步和视觉质量的性能。
本文介绍了解决音频驱动人脸生成中同步问题的方法,通过无声的唇部参考图像生成器和自适应三元损失,解决了唇部信息泄露和姿势信息泄露问题,并提出了一个稳定的同步损失表达式。实验表明,该方法在音频-视觉同步和视觉质量方面表现出最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。