BriefGPT - AI 论文速递 ·

基于 ASR 的跨领域产品检索多模态表示学习

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文介绍了一种多模态自动语音识别（ASR）模型，通过结合视觉信息与预训练的语音和文本模型，显著提高了转录准确性。研究表明，视觉上下文的使用能够减少错误转录，尤其在科学会议视频的转录质量上表现出明显的性能提升。

🎯

❓

多模态自动语音识别模型通过结合视觉信息与语音和文本模型，显著提高了转录准确性，尤其在科学会议视频的转录质量上表现出明显的性能提升。

Multimodal Scientific ASR（MS-ASR）任务是通过利用幻灯片的视觉信息来提高科学会议视频中技术术语的转录准确性。

实验结果表明，融合视觉信息可以在音频模型基础上实现相对增益高达3.76%，并显著减少口头指令的错误转录。

基于Scientific Vision Augmented ASR（SciVASR）框架的方法在评估中显示出45%的性能改进。

多模态ASR模型通过考虑视觉上下文，减少口头指令的错误转录，从而提高任务完成的准确性。

通过引入跨模态对话表示，Conformer模型的准确度提升了8.8%（HKUST）和23%（MagicData-RAMC）。

🏷️