SimDA:用于高效视频生成的简易扩散适配器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中生成说话者嵌入信息。基于这些嵌入和从输入视频中提取的视觉表示,开发了一种基于扩散的视频到语音合成模型DiffV2S,取得了最先进的性能。
🎯
关键要点
- 提出了一种新颖的视觉导向说话者嵌入提取器。
- 使用自监督预训练模型和提示调整技术生成说话者嵌入信息。
- 推断时间不需要额外的音频信息。
- 开发了基于扩散的视频到语音合成模型DiffV2S。
- DiffV2S以说话者嵌入和视觉表示为条件。
- 保留输入视频帧中的音素细节,创建可理解的梅尔频谱图。
- 多个说话者的身份得以保留。
- 实验结果显示DiffV2S在视频到语音合成技术中取得了最先进的性能。
➡️