AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别

💡 原文中文,约6600字,阅读约需16分钟。
📝

内容提要

西北工业大学与南洋理工大学合作提出MARS方法,通过多模态检索和选择历史上下文,提升对话语音识别(ASR)性能。该方法在MLC-SLM数据集上表现优异,展示了有效利用历史上下文的潜力。

🎯

关键要点

  • 西北工业大学与南洋理工大学合作提出MARS方法,提升对话语音识别性能。

  • 对话语音识别技术在智能助手和会议转录等应用中变得重要。

  • MARS方法通过多模态检索和选择历史上下文,增强对话ASR的性能。

  • 研究表明,融入前序话语中的上下文能显著提升ASR性能。

  • MARS在MLC-SLM数据集上表现优异,混合错误率显著低于其他方法。

  • 多模态检索结合语音和文本信息,减少ASR错误。

  • 多模态选择模块从检索到的历史上下文中确定最佳上下文,提升ASR性能。

  • 自适应上下文解码策略增强了对话LLM-ASR的泛化能力。

  • 实验结果显示MARS方法在多语言对话语音识别中具有巨大潜力。

  • MARS方法通过有效选择历史上下文,降低计算成本并提升识别准确率。

延伸问答

MARS方法的主要目标是什么?

MARS方法的主要目标是通过多模态检索和选择历史上下文,增强对话语音识别的性能。

MARS方法在MLC-SLM数据集上的表现如何?

MARS方法在MLC-SLM数据集上表现优异,混合错误率显著低于其他方法。

多模态检索在对话ASR中有什么优势?

多模态检索结合语音和文本信息,能够从发音和语义两个方面减少ASR错误。

MARS方法如何选择最佳历史上下文?

MARS方法通过多模态选择模块,从检索到的历史上下文中确定最佳上下文,以提升ASR性能。

MARS方法如何降低计算成本?

MARS方法通过有效选择历史上下文,降低了计算成本并提升了识别准确率。

自适应上下文解码策略的作用是什么?

自适应上下文解码策略增强了对话LLM-ASR的泛化能力,防止过度依赖历史上下文。

➡️

继续阅读