面部说话:从文本中联合合成说话脸部和语音
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文提出了一种生成具有可控面部动作的谈话面孔的方法,通过建立规范空间和多模态运动空间,分离身份和运动,实现了生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,该方法在视觉质量和唇同步得分方面取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部、头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
🎯
关键要点
-
该论文提出了一种生成具有可控面部动作的谈话面孔的方法。
-
通过建立规范空间和多模态运动空间,分离身份和运动。
-
实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。
-
实验证明该方法在视觉质量和唇同步得分方面取得了最先进的结果。
-
这是第一个开发出在生成的视频中准确展示所有目标面部运动的谈话面孔生成框架。
-
该方法没有超越 RGB 视频与音频的任何附加监督。
➡️