HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一个基于外部巨大语言模型的自动语音识别错误订正的开源基准测试,包含超过334,000个N-best假设及相应准确转录数据对。利用LLMs实现了显著的词错误率降低,突破了传统的重新排名方法上限并具备生成能力,提供了一个基于LLMs的ASR错误订正的全新评估范式。
🎯
关键要点
-
介绍了基于外部巨大语言模型的自动语音识别错误订正的开源基准测试。
-
基准测试包含超过334,000个N-best假设及相应准确转录数据对。
-
利用LLMs实现了显著的词错误率降低。
-
该技术突破了传统的重新排名方法上限并具备生成能力。
-
提供了一个基于LLMs的ASR错误订正的全新评估范式。
🏷️