本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调。经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
本文提出了一种适用于多人场景的通用分层场景表示方法,可用于多人视点渲染,并通过新颖的端到端训练模块进行人体模型校正。该方法在新颖视图综合和非人物优化场景 NeRF 方法上表现优越。
完成下面两步后,将自动完成登录并继续当前操作。