使你的演员说话:运动和外貌解耦的通用和高保真度的唇同步

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法。通过将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。实验证明,我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

🎯

关键要点

  • 提出了一种通过语音生成唇部运动和视觉外观来编辑说话视频的方法。
  • 将唇部运动和视觉外观分离并分别生成,使用语音到运动扩散模型和运动条件下的外观生成模型。
  • 使用标记点表示运动,采用基于标记点的身份损失保留个人身份信息。
  • 通过独立编码器对唇部、非唇部外观和运动进行编码。
  • 使用学习融合模块整合编码信息,以捕捉运动无关的视觉细节。
  • 实验表明,该方法在唇部同步和视觉细节保持方面具有良好的泛化能力,适用于未知和不相关的人。
➡️

继续阅读