Apple Machine Learning Research ·

语音搜索错误纠正的音素增强判别重评分

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种针对E2E自动语音识别模型在新电影标题识别中不足的音素纠正方法。该方法通过音素搜索生成替代选项，并结合ASR模型的识别结果，显著提高了识别准确率，错误率降低了4.4%至7.6%。

🎯

🔎

本文提出的音素纠正方法通过生成替代音素选项，显著提升了E2E自动语音识别模型在新电影标题识别中的准确性。这一方法不仅适用于电影标题，也可能对其他领域的语音识别任务产生积极影响，尤其是在处理新词或不常见词汇时。

E2E自动语音识别模型的训练依赖于高质量的配对音频-文本样本，而这些样本的获取成本高昂。这一限制可能导致模型在新电影标题等特定领域的表现不佳，提醒研究者在模型开发时需考虑数据多样性和代表性。

随着语音搜索技术的普及，用户体验将得到显著提升。本文的方法为语音搜索应用提供了更高的识别准确率，尤其是在新电影标题的搜索中，可能会吸引更多用户使用语音输入，推动相关技术的进一步发展。

❓

E2E自动语音识别模型是一种通过配对音频和文本样本进行训练的语音识别系统。

该方法通过音素搜索生成替代选项，并结合ASR模型的识别结果来提高识别准确率。

该方法显著提高了识别准确率，错误率降低了4.4%至7.6%。

新电影标题在E2E ASR系统的训练数据中代表性不足，导致识别效果差。

获取高质量的配对音频-文本样本成本高，因为需要人工标注。

语音搜索应用利用ASR技术允许用户通过语音进行搜索，而不是使用屏幕键盘。

🏷️