小红花·文摘

该研究提出了Speech2Lip框架，通过学习音频与视觉的运动和外观，生成自然的对话面孔视频。该方法实现了高质量的唇部同步和视觉效果，适用于自动读唇和音频-视频检索任务。通过多模态运动空间和正交性约束，生成具有可控面部动作的谈话面孔，展现了在视觉质量和同步得分上的先进性能。