MoDiTalker: 运动解缠扩散模型用于高保真说话头生成

原文约300字,阅读约需1分钟。发表于:

通过提出的 MoDiTalker 模型,我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题,并通过引入音频到运动和运动到视频两个模块,实现了高质量的对话头像生成。

本论文介绍了DiffPoseTalk生成框架,利用扩散模型和风格编码器生成面部动画,并通过语音和风格指导提高用户感知。作者通过训练高质量音频-视觉数据集解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。

相关推荐 去reddit讨论