HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

原文约400字,阅读约需1分钟。发表于:

采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。

本文介绍了一个基于外部巨大语言模型的自动语音识别错误订正的开源基准测试,包含超过334,000个N-best假设及相应准确转录数据对。利用LLMs实现了显著的词错误率降低,突破了传统的重新排名方法上限并具备生成能力,提供了一个基于LLMs的ASR错误订正的全新评估范式。

相关推荐 去reddit讨论