本文介绍了一种多模态自动语音识别(ASR)模型,通过结合视觉信息与预训练的语音和文本模型,显著提高了转录准确性。研究表明,视觉上下文的使用能够减少错误转录,尤其在科学会议视频的转录质量上表现出明显的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。