SimDA:用于高效视频生成的简易扩散适配器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中生成说话者嵌入信息。基于这些嵌入和从输入视频中提取的视觉表示,开发了一种基于扩散的视频到语音合成模型DiffV2S,取得了最先进的性能。

🎯

关键要点

  • 提出了一种新颖的视觉导向说话者嵌入提取器。
  • 使用自监督预训练模型和提示调整技术生成说话者嵌入信息。
  • 推断时间不需要额外的音频信息。
  • 开发了基于扩散的视频到语音合成模型DiffV2S。
  • DiffV2S以说话者嵌入和视觉表示为条件。
  • 保留输入视频帧中的音素细节,创建可理解的梅尔频谱图。
  • 多个说话者的身份得以保留。
  • 实验结果显示DiffV2S在视频到语音合成技术中取得了最先进的性能。
➡️

继续阅读