视听结合:基于扩散潜在对齐器的开放领域视听生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了一种基于音频样本的文本-视频生成模型,能够生成多样化和逼真的视频。通过使用适配器网络,将音频基础表示映射到生成模型所需的输入表示,实现了对文本、音频和文本与音频的生成视频。实验证明,该方法生成的视频在内容和时间轴上与输入音频更好地对齐,并且具有更高的视觉质量和多样性。

🎯

关键要点

  • 该研究提出了一种基于音频样本的文本-视频生成模型。
  • 模型能够生成多样化和逼真的视频。
  • 采用轻量级适配器网络将音频基础表示映射到生成模型所需的输入表示。
  • 实现了对文本、音频及其组合的生成视频。
  • 在三个数据集上验证了该方法,展示了生成视频的显著语义多样性。
  • 提出了一种新的评估度量(AV-Align)用于评估生成视频与输入音频的对齐性。
  • 与先进方法相比,该方法生成的视频在内容和时间轴上更好地与输入音频对齐,且视觉质量和多样性更高。
➡️

继续阅读