本研究分析了自动语音识别系统(如Whisper)在不同性别群体中的表现差异,重点关注字错率和字符错率,揭示了性别偏见对自动字幕生成的影响。
该论文介绍了一种针对语音识别的自监督学习方法,通过使用随机投影量化器生成离散标签,从而学习模型预测被屏蔽掉的语音信号。实验结果表明,该方法在多语种任务中比旧有的模型具有更低的字错率和延迟。
完成下面两步后,将自动完成登录并继续当前操作。