利用大型语言模型进行生成式语音识别误差校正

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

该研究探讨了大型语言模型中的上下文偏置,并提出了多种方法来提升自动语音识别性能,包括偏置列表、少量示例、多任务训练和动态提示等。实验结果表明,这些方法可以分别实现17.8%至20.0%的相对WER改善。

🎯

关键要点

  • 该研究探讨了大型语言模型中的上下文偏置。

  • 在二次通过重新评分期间,提供额外的上下文信息以提升自动语音识别性能。

  • 研究提出利用提示方式对 LLM 进行偏置,包括偏置列表和少量示例。

  • 多任务训练被提出以预测实体类别和下一个标记。

  • 动态提示方法利用类别标签预测选择最可能的类别,以避免超过 LLM 的最大序列长度。

  • 在多个数据集上进行了字错误率评估。

  • 偏置列表和少量示例分别实现了17.8%和9.6%的相对WER改善。

  • 多任务训练和动态提示分别实现了20.0%和11.3%的相对WER改善。

➡️

继续阅读