BriefGPT - AI 论文速递 ·

面部说话：从文本中联合合成说话脸部和语音

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文提出了一种多语言对话生成系统，结合人脸生成和文本到语音技术，能够生成自然语音和同步口型。该系统通过规范空间和多模态运动空间，实现可控面部动作，生成高质量的交谈视频，视觉质量和唇部同步达到先进水平。同时，研究展示了基于文本的个性化面部表情生成方法，具有更高的真实性和自然性。

🎯

❓

该系统能够通过文本输入生成自然语音和同步口型，保持语音人的声音特征。

通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现可控面部动作和准确的唇部同步。

实验结果显示，该系统在视觉质量和唇同步得分方面达到先进水平。

该方法具有更高的真实性和自然性，能够生成个性化的面部表情。

系统结合了人脸生成和文本到语音技术，可以处理多种语言的文本输入，生成相应的语音和口型。

实验验证了生成高质量、逼真的交谈头视频，且在多项指标上超过目前领先的技术水平。

🏷️