小红花·文摘

该研究提出了一种利用SCLDM的语音到人脸生成框架，通过对话音频和面部特征之间的对比预训练以及引入残差的方式，实现了更加逼真的人脸图像生成。在AVSpeech和Voxceleb数据集上，该方法在所有度量指标上均取得了显著提升，尤其是在余弦距离度量指标上分别提升了32.17和32.72。