本文提出了音频字幕的三个愿景:生成流畅的文本、生成忠实于输入音频的文本和提高听觉可感知性。通过零样本方法,使用推理过程进行字幕生成,涉及三个网络:GPT-2语言模型、ImageBind多模态匹配网络和文本分类器。在AudioCap数据集上展示了结果,证明了听觉指导明显提高了性能。
完成下面两步后,将自动完成登录并继续当前操作。