基于音频驱动的说话人脸视频生成与联合不确定性学习
📝
内容提要
本文针对数字人类技术领域中音频驱动说话人脸视频生成的挑战,提出了一种联合不确定性学习网络(JULNet)。该方法通过引入与视觉误差相关的不确定性表示,同时优化误差和不确定性,大幅提升了生成视频的视觉质量和音频唇形同步效果,显示出比以往方法更高的保真度和鲁棒性。
➡️
本文针对数字人类技术领域中音频驱动说话人脸视频生成的挑战,提出了一种联合不确定性学习网络(JULNet)。该方法通过引入与视觉误差相关的不确定性表示,同时优化误差和不确定性,大幅提升了生成视频的视觉质量和音频唇形同步效果,显示出比以往方法更高的保真度和鲁棒性。