BriefGPT - AI 论文速递 ·

规范化中遗失了什么？探索多语言自动语音识别模型评估中的陷阱

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文探讨了提高低资源语言自动语音翻译质量的方法，研究表明高资源语言的ASR模型训练能有效提升翻译质量。预训练模型的词错误率是关键因素，数据增强与预训练互补。此外，提出了多语言训练的ASR模型，显著提高低资源语言的识别性能，并介绍了新的评价指标和语料库，推动多语言语音识别研究的发展。

🎯

❓

在高资源语言上训练的ASR模型可以有效提高低资源语言的自动语音翻译质量，预训练模型的词错误率是关键因素。

多语言训练的ASR模型在51种语言上进行基准测试，显示出对低资源语言的识别性能显著提升，识别性能相较于单语言训练有明显改善。

NoRefER是一种新工具，用于提高ASR系统的可解释性，能够提供关于模型行为的有价值见解，帮助后期编辑ASR假设的改进。

MSR-86K是一个包含15种语言和86300小时ASR数据的大规模多语言语音识别研究语料库，旨在推动多语言语音识别研究。

通过LibriSpeech-PC基准测试，可以评估ASR模型在标点和大小写预测方面的能力，并提出了新的评估指标PER。

预训练的ASR模型和数据增强相结合，可以有效提高自动语音翻译的质量，预训练模型的词错误率是影响翻译质量的关键因素。

🏷️