小红花·文摘

本文提出了音频字幕的三个愿景：生成流畅的文本、生成忠实于输入音频的文本和提高听觉可感知性。通过零样本方法，使用推理过程进行字幕生成，涉及三个网络：GPT-2语言模型、ImageBind多模态匹配网络和文本分类器。在AudioCap数据集上展示了结果，证明了听觉指导明显提高了性能。