本文介绍了一种利用神经网络模型实现视频配音的方法,该模型能根据视频中的口型运动生成音频的音调,并通过图像的扬声器嵌入模块适应多人场景。实验证明该模型在多人场景下能达到与当前最优文本转语音模型相当的音频质量和音视频同步表现。
完成下面两步后,将自动完成登录并继续当前操作。