高效识别多语言数据集中低质量语言子集:一个大规模多语言音频数据集的案例研究
发表于: 。本研究解决了多语言数据集中低质量语言子集难以识别的问题。我们提出了一种统计检验方法——偏好比例检验,以系统地发现并排除数据中的转录错误。实验表明,该方法在音频转录任务中能显著提升模型性能,尤其是在处理分布外语言时,相较于未筛选数据有25.7%的性能提高。
本研究解决了多语言数据集中低质量语言子集难以识别的问题。我们提出了一种统计检验方法——偏好比例检验,以系统地发现并排除数据中的转录错误。实验表明,该方法在音频转录任务中能显著提升模型性能,尤其是在处理分布外语言时,相较于未筛选数据有25.7%的性能提高。