SegTalker:基于分割的带面部表情生成的口语生成方法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种音频驱动人脸生成方法,通过改进唇部参考图像生成器、自适应三元损失和同步损失表达式,实现了口型同步、逼真的人脸视频生成,解决了唇部信息泄露和模型训练不稳定性等问题,提高了音频-视觉同步和视觉质量的性能。

🎯

关键要点

  • 音频驱动人脸生成方法的关键挑战是生成图像的整体视觉质量和嘴部的音频-视频同步。
  • 最近的音频驱动人脸生成方法存在唇部和姿势信息意外流动及模型训练不稳定性的问题。
  • 提出了无声的唇部参考图像生成器以防止唇部信息泄露。
  • 使用自适应三元损失来解决姿势信息泄露问题。
  • 提出了稳定的同步损失表达式以解决训练不稳定性问题,并减轻唇部信息泄露。
  • 结合这些改进后,在LRS2和LRW数据集上实现了音频-视觉同步和视觉质量的最先进性能。
  • 通过消融实验验证了设计的有效性,确认了各改进措施的独立贡献及互补效果。
➡️

继续阅读