Mimic:语音驱动三维面部动画的说话风格解耦
原文中文,约300字,阅读约需1分钟。发表于: 。通过创新的说话风格解缠方法,我们提出了一种名为躺椅的新框架,用于学习面部运动的解缠表示,并通过建立风格和内容的二个潜在空间来实现任意主题说话风格的编码,从而实现更真实的语音驱动面部动画的合成。
DiffPoseTalk是一种生成框架,利用扩散模型和风格编码器辅助面部动画生成。通过语音和风格指导生成过程,提高用户感知。作者通过训练高质量音频-视觉数据集中的3DMM参数解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。代码和数据集将公开发布。