G4G: 高保真细粒度语音人脸生成的通用框架

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种利用深度生成模型和语音输入信号为静止面部图像添加动画的方法。通过多尺度音频视觉同步损失和多尺度自回归生成对抗网络,处理语音和头部以及嘴唇之间的短期和长期关联。实验结果表明,该方法在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

🎯

关键要点

  • 利用深度生成模型和语音输入信号为静止面部图像添加动画是研究热点。
  • 提出了多尺度音频视觉同步损失和多尺度自回归生成对抗网络。
  • 该方法处理语音与头部及嘴唇之间的短期和长期关联。
  • 通过训练多模态输入金字塔上的同步模型堆栈来实现。
  • 结合多尺度生成网络生成音频对齐的动画。
  • 实验结果显示头部动作质量和多尺度音频视觉同步显著提高。
➡️

继续阅读