V2A-Mapper: 连接基础模型的轻量级视觉到音频生成解决方案

原文约300字,阅读约需1分钟。发表于:

提供了一个轻量级的解决方案,通过利用 CLIP、CLAP 和 AudioLDM 等基础模型,提出了一种简单而有效的 V2A-Mapper 机制来解决视觉到音频生成问题,并在两个 V2A 数据集上进行了客观和主观评估,结果表明我们的方法相对于目前的最先进方法在 FD 和 CS 方面分别取得了 53% 和 19% 的改进,参数减少了 86%。

本文介绍了一种音频视觉语音增强系统,利用基于分数的生成模型和视觉信息。该系统在语音质量和减少生成物品方面有改进效果,并降低了发音困惑。在低信噪比情况下,该系统的单词错误率明显降低。

相关推荐 去reddit讨论