BriefGPT - AI 论文速递 ·

中文语音识别中的全文错误纠正与大型语言模型

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了大型语言模型在自动语音识别（ASR）和文本错误纠正中的应用，提出了基于随机蒙版的策略和拼音规范化方法，显著提高了纠错精度。研究表明，优化训练数据质量和动态错误放大机制能有效提升ASR系统性能，并建立了中文和日语的基准数据集。

🎯

❓

大型语言模型通过上下文学习能力和动态错误放大机制来检测和纠正语音识别中的潜在错误，从而提高转录准确性。

拼音规范化方法通过直接转录拼音来提升大型语言模型的纠错能力，实验表明其能显著改善纠错效果。

研究发现大型语言模型在中文语法错误纠正中存在过度纠正的问题，并且在不同数据分布下表现差异明显。

动态错误放大机制通过检测和纠正ASR输出中的语音错误，结合单词级特征和语音信息，显著提升了纠错效果。

本文构建了专门用于纠正中文ASR错误的基准数据集，包含广泛的场景和挑战。

通过保守数据筛选和确定训练数据质量的基本准则，可以有效解决低质量数据导致的模型脆弱问题，从而提升ASR系统性能。

🏷️