本论文介绍了DiffPoseTalk生成框架,利用扩散模型和风格编码器生成面部动画,并通过语音和风格指导提高用户感知。作者通过训练高质量音频-视觉数据集解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。