小红花·文摘

语音合成3D面部动画引起关注。通过三位一体方法，首先引入广义神经参数面部特征(GNPFA)从视频中提取表情和头部姿势。然后提出Media2Face扩散模型，在GNPFA空间中生成与音频、文本和图像相关的面部动画。实验表明，该模型在动画合成上具有高保真度，并增强了表现力和风格适应性。