小红花·文摘

本文介绍了多种基于语音驱动的说话人脸合成技术，包括情感视频肖像、无监督学习的3D模型、一次性风格控制和变分风格转换模型。这些方法通过提取面部特征和风格，生成高质量的动态视频人像，显著提升了合成的自然性和表现力。实验结果显示，这些新技术在视觉质量和表达丰富性方面优于现有方法。