小红花·文摘

本文提出了基于Transformer的深度学习模型解决音频视觉语音修复问题，实验结果显示该模型优于之前的音频-视觉模型和音频模型。使用AV-HuBERT提取的视觉特征可合成语音。