Apple Machine Learning Research ·

通过提示Whisper提高逐字转录和端到端错误检测的准确性

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文探讨了一种新方法来识别阅读错误，提出了结合目标阅读文本的端到端架构，以提高自动语音识别（ASR）的准确性和错误检测能力。研究表明，整合阅读文本的提示可以改善逐字转录性能，尤其在儿童朗读和成人非典型言语的案例中，效果优于现有技术。此外，播客转录的可读性和准确性对听障人士至关重要。

🎯

🔎

本文提出的端到端架构通过整合目标阅读文本，显著提高了逐字转录的准确性。这种方法在儿童朗读和成人非典型言语的应用中表现优于传统的微调技术，显示出其在特定场景下的有效性。

播客的转录准确性直接影响听障人士的访问体验。确保自动生成的播客转录可读且准确，不仅是技术挑战，也是提升信息无障碍的重要一步。

传统的错误识别方法依赖于事后比较，往往在ASR转录不准确时效果不佳。这一局限性促使研究者探索新的架构，以实现更高效的错误检测和转录性能。

❓

通过整合目标阅读文本的提示，采用新颖的端到端架构，可以显著提高逐字转录性能。

研究主要贡献在于证明了通过提示整合阅读文本可以改善逐字转录性能，并且可行性地增强了端到端的错误检测能力。

在这两个案例中，提出的策略在逐字转录和错误检测方面表现优于当前的最先进技术。

播客转录的可读性和准确性对听障人士至关重要，确保他们能够获取信息。

传统方法通常是事后比较转录与目标文本，但在ASR错误转录时效果不佳。

通过将少量人工生成的参考转录与相应的ASR转录进行比较来评估输出质量。

🏷️