TAVGBench:文本转音频 - 视频生成性能基准测试
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一个用于生成文字描述音频视频的基准测试集(TAVGBench),包含超过 1.7 百万个剪辑,总时长达到 11.8 千小时。通过自动注释流程,确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数(AVHScore),用于定量衡量生成音频和视频之间的对齐程度。此外,还提出了名为 TAVDiffusion 的 TAVG...
该研究提出了一种基于音频样本的文本-视频生成模型,能够生成多样化和逼真的视频。通过使用适配器网络将音频基础表示映射到生成模型的输入表示,实现了对文本、音频和文本与音频的生成视频。实验证明,该方法生成的视频在内容和时间轴上与输入音频更好地对齐,并且具有更高的视觉质量和多样性。