通过听觉引导的零射频音频字幕生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了音频字幕的三个愿景:生成流畅的文本、生成忠实于输入音频的文本和提高听觉可感知性。通过零样本方法,使用推理过程进行字幕生成,涉及三个网络:GPT-2语言模型、ImageBind多模态匹配网络和文本分类器。在AudioCap数据集上展示了结果,证明了听觉指导明显提高了性能。
🎯
关键要点
- 音频字幕任务与图像和视频字幕任务相似,但关注较少。
- 提出音频字幕的三个愿景:生成文本的流畅性、忠实于输入音频的文本、提高听觉可感知性。
- 采用零样本方法,通过推理过程进行字幕生成,涉及三个网络:GPT-2语言模型、ImageBind多模态匹配网络和文本分类器。
- 在AudioCap数据集上展示结果,证明听觉指导显著提高了性能。
🏷️
标签
➡️