这篇论文综述了深度学习和计算机视觉在生成逼真说话头部中的应用,涵盖图像、音频、视频驱动及其他方法。分析了每种方法的贡献、优缺点,并比较了公开模型的推理时间和生成质量。目标是提供领域概览,明确方法关系,确定未来研究方向,为研究人员和从业者提供参考。
完成下面两步后,将自动完成登录并继续当前操作。