小红花·文摘

本文介绍了解决音频驱动人脸生成中同步问题的方法，通过无声的唇部参考图像生成器和自适应三元损失，解决了唇部信息泄露和姿势信息泄露问题，并提出了一个稳定的同步损失表达式。实验表明，该方法在音频-视觉同步和视觉质量方面表现出最先进的性能。