小红花·文摘

本研究介绍了一种新型流程，用于从有声读物生成ASR训练数据集，以解决资源稀缺语言中ASR系统性能较差的问题。该方法通过对齐音频和文本，并分割成适合ASR训练的长度，简化了数据准备工作。通过亚美尼亚语的案例研究，证明了该方法的应用价值。适用于多种资源稀缺语言，提高了低资源语言的ASR模型性能。

基于端到端自动语音识别模型的实时转录评估

BriefGPT - AI 论文速递 ·

本研究介绍了一种新型流程，用于从有声读物生成ASR训练数据集，以解决资源稀缺语言中ASR系统性能较差的问题。该方法通过对齐音频和文本，并分割成适合ASR训练的长度，简化了数据准备工作。通过亚美尼亚语的案例研究，证明了该方法的应用价值。适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的ASR模型性能。

启用低资源语言的 ASR：一个全面的数据集创建方法

BriefGPT - AI 论文速递 ·