具备语音条件的潜空间扩散和人脸先验的逼真语音到人脸生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种利用SCLDM的语音到人脸生成框架,通过对话音频和面部特征之间的对比预训练以及引入残差的方式,实现了更加逼真的人脸图像生成。在AVSpeech和Voxceleb数据集上,该方法在所有度量指标上均取得了显著提升,尤其是在余弦距离度量指标上分别提升了32.17和32.72。

🎯

关键要点

  • 提出了一种利用SCLDM的语音到人脸生成框架。

  • 通过对话音频和面部特征之间的对比预训练实现人脸图像生成。

  • 引入残差的方式提高生成的逼真度。

  • 在AVSpeech和Voxceleb数据集上,该方法在所有度量指标上显著提升。

  • 尤其在余弦距离度量指标上,分别提升了32.17和32.72。

➡️

继续阅读