小红花·文摘

本文介绍了一个基于外部巨大语言模型的自动语音识别错误订正的开源基准测试，包含超过334,000个N-best假设及相应准确转录数据对。利用LLMs实现了显著的词错误率降低，突破了传统的重新排名方法上限并具备生成能力，提供了一个基于LLMs的ASR错误订正的全新评估范式。