V2A-Mapper: 连接基础模型的轻量级视觉到音频生成解决方案

原文约300字，阅读约需1分钟。发表于：。

提供了一个轻量级的解决方案，通过利用 CLIP、CLAP 和 AudioLDM 等基础模型，提出了一种简单而有效的 V2A-Mapper 机制来解决视觉到音频生成问题，并在两个 V2A 数据集上进行了客观和主观评估，结果表明我们的方法相对于目前的最先进方法在 FD 和 CS 方面分别取得了 53% 和 19% 的改进，参数减少了 86%。

本文介绍了一种音频视觉语音增强系统，利用基于分数的生成模型和视觉信息。该系统在语音质量和减少生成物品方面有改进效果，并降低了发音困惑。在低信噪比情况下，该系统的单词错误率明显降低。