多模态上下文感知的表达性视频配音模型MCDubber
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种利用神经网络模型实现视频配音的方法,该模型能够根据视频中的口型运动控制生成音频的音调,并且针对多人场景还开发了一种基于图像的扬声器嵌入模块,实现了在说话者面部表示下根据不同的人物角色生成不同的音调。经实验证明即便是在多人场景下也能达到与当前最优文本转语音模型相当的音频质量和音频与视频的时间同步表现。
🎯
关键要点
- 提出了一种利用神经网络模型实现视频配音的方法。
- 模型能够根据视频中的口型运动控制生成音频的音调。
- 针对多人场景开发了一种基于图像的扬声器嵌入模块。
- 实现了在说话者面部表示下根据不同人物角色生成不同音调。
- 实验证明在多人场景下音频质量与当前最优文本转语音模型相当。
- 音频与视频的时间同步表现良好。
➡️