本研究提出了一种可配置的多语言自动语音识别模型csvMASR,旨在解决在未知语言情况下部署多种单语模型的挑战。该模型结合适配器和语音摘要向量表示,提高了可配置性,并在多语言数据集上显著降低了字词错误率,展现出优越的语言分类和提示任务表现。
本文介绍了多种改进自动语音识别的上下文机制的方法,包括使用专有名词和音相似短语作为负面例子、基于Transformer的多任务学习框架以及上下文偏置注意力等。这些方法显著降低了字词错误率,提高了识别性能,尤其在低资源语言和多轮对话中表现突出。
完成下面两步后,将自动完成登录并继续当前操作。