小红花·文摘

本文介绍了一种音频驱动人脸生成方法，通过改进唇部参考图像生成器、自适应三元损失和同步损失表达式，实现了口型同步、逼真的人脸视频生成，解决了唇部信息泄露和模型训练不稳定性等问题，提高了音频-视觉同步和视觉质量的性能。