小红花·文摘

本文介绍了一种多模态自动语音识别（ASR）模型，通过结合视觉信息与预训练的语音和文本模型，显著提高了转录准确性。研究表明，视觉上下文的使用能够减少错误转录，尤其在科学会议视频的转录质量上表现出明显的性能提升。