小红花·文摘

DiffPoseTalk是一种生成框架，利用扩散模型和风格编码器辅助面部动画生成。通过语音和风格指导生成过程，提高用户感知。作者通过训练高质量音频-视觉数据集中的3DMM参数解决了扫描3D说话脸数据不足的问题。实验和用户研究表明该方法优于现有方法。代码和数据集将公开发布。