MoDiTalker: 运动解缠扩散模型用于高保真说话头生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本论文介绍了DiffPoseTalk生成框架,利用扩散模型和风格编码器生成面部动画,并通过语音和风格指导提高用户感知。作者通过训练高质量音频-视觉数据集解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。
🎯
关键要点
- 提出了DiffPoseTalk生成框架,基于扩散模型和风格编码器。
- 通过提取短参考视频中的风格嵌入辅助面部动画生成。
- 利用语音和风格指导生成过程,提高用户感知。
- 通过训练高质量音频-视觉数据集解决3D说话脸数据不足的问题。
- 实验和用户研究表明该方法优于现有方法。
- 将公开发布代码和数据集。
🏷️
标签
➡️