Ditto:可控的实时谈话头合成运动空间扩散
📝
内容提要
本研究针对音频驱动的谈话头合成中存在的推理速度慢、面部运动控制不足及视觉伪影等问题进行了探讨。提出的Ditto框架通过显式的与身份无关的运动空间,连接运动生成与逼真的神经渲染,实现了可控的实时谈话头合成。实验结果表明,Ditto在运动控制和实时性能方面显著优于现有方法,极大提升了交互应用的可行性。
➡️
本研究针对音频驱动的谈话头合成中存在的推理速度慢、面部运动控制不足及视觉伪影等问题进行了探讨。提出的Ditto框架通过显式的与身份无关的运动空间,连接运动生成与逼真的神经渲染,实现了可控的实时谈话头合成。实验结果表明,Ditto在运动控制和实时性能方面显著优于现有方法,极大提升了交互应用的可行性。