神经文本转口头表达:深度文本到视听说话合成实现听觉与逼真图像
原文中文,约300字,阅读约需1分钟。发表于: 。在这篇论文中,我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART,它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失,该模型能够生成人类般发音和音视频同步的逼真说话人脸视频,实验证明其在客观指标和人类评估方面达到了最先进的生成质量。
NEUTART是一种使用Transformer的文本驱动音频视觉语音合成器,通过联合音频视觉特征空间、3D面部重建和嘴唇阅读损失生成逼真的说话人脸视频。实验证明其生成质量达到了最先进水平。