本研究提出了一种CTC辅助的上下文自动语音识别模型,旨在解决现有系统在识别稀有词汇时的局限性。通过有效的过滤算法,该模型在Librispeech测试集上显著提升了识别性能。
本文介绍了一个名为 LibriSpeech-PC 的基准测试,用于评估端到端自动语音识别模型在标点和大小写预测方面的能力,同时提出了一种名为 PER 的新型评估指标,专注于标点符号,并提供了初步的基准模型。
Spatial LibriSpeech是一个包含超过650小时的19通道音频的空间音频数据集,用于机器学习模型训练。该数据集包含源位置、说话方向、房间声学和几何标签。通过对四个空间音频任务进行模型训练,结果表明该数据集在3D源定位、距离、T30和DRR估计方面具有良好的性能,并在评估数据集上表现出良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。