Mimic:语音驱动三维面部动画的说话风格解耦

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

DiffPoseTalk是一种生成框架,利用扩散模型和风格编码器辅助面部动画生成。通过语音和风格指导生成过程,提高用户感知。作者通过训练高质量音频-视觉数据集中的3DMM参数解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。代码和数据集将公开发布。

🎯

关键要点

  • DiffPoseTalk是一种基于扩散模型和风格编码器的生成框架。
  • 该框架通过提取短参考视频中的风格嵌入来辅助面部动画生成。
  • 利用语音和风格指导生成过程,提高用户感知。
  • 作者训练了高质量音频-视觉数据集中的3DMM参数,解决了3D说话脸数据不足的问题。
  • 实验和用户研究表明该方法优于现有方法。
  • 代码和数据集将公开发布。
➡️

继续阅读