TAVGBench:文本转音频 - 视频生成性能基准测试

原文约300字,阅读约需1分钟。发表于:

提出了一个用于生成文字描述音频视频的基准测试集(TAVGBench),包含超过 1.7 百万个剪辑,总时长达到 11.8 千小时。通过自动注释流程,确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数(AVHScore),用于定量衡量生成音频和视频之间的对齐程度。此外,还提出了名为 TAVDiffusion 的 TAVG 基线模型,使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估,展示了我们所提出模型在传统指标和我们提出的指标下的有效性。

该研究提出了一种基于音频样本的文本-视频生成模型,能够生成多样化和逼真的视频。通过使用适配器网络将音频基础表示映射到生成模型的输入表示,实现了对文本、音频和文本与音频的生成视频。实验证明,该方法生成的视频在内容和时间轴上与输入音频更好地对齐,并且具有更高的视觉质量和多样性。

相关推荐 去reddit讨论