HyperLips: 使用高分辨率解码器进行超精细控制的说话脸生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了解决音频驱动人脸生成中同步问题的方法,通过无声的唇部参考图像生成器和自适应三元损失,解决了唇部信息泄露和姿势信息泄露问题,并提出了一个稳定的同步损失表达式。实验表明,该方法在音频-视觉同步和视觉质量方面表现出最先进的性能。

🎯

关键要点

  • 音频驱动人脸生成中存在同步问题,影响视觉质量和音频-视频同步。
  • 现有方法中唇部和姿势信息意外流动及模型训练不稳定性是主要挑战。
  • 提出无声的唇部参考图像生成器以防止唇部信息泄露。
  • 使用自适应三元损失来解决姿势信息泄露问题。
  • 提出稳定的同步损失表达式以解决训练不稳定性和减轻唇部信息泄露。
  • 结合这些改进后,在LRS2和LRW数据集上实现了最先进的音频-视觉同步和视觉质量。
  • 通过消融实验验证了各项改进的独立贡献及其互补效果。
➡️

继续阅读