该研究提出了Speech2Lip框架,通过学习音频与视觉的运动和外观,生成自然的对话面孔视频。该方法实现了高质量的唇部同步和视觉效果,适用于自动读唇和音频-视频检索任务。通过多模态运动空间和正交性约束,生成具有可控面部动作的谈话面孔,展现了在视觉质量和同步得分上的先进性能。
完成下面两步后,将自动完成登录并继续当前操作。