联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。
自动语音识别(ASR)系统在过去十年取得了显著进展,但对有语言障碍个体的表现仍然不足。为了解决这一问题,2025年启动了语音可及性项目挑战,利用超过400小时的来自500多名有语言障碍个体的数据。挑战评估结果显示,12支队伍在字错误率(WER)上超越基线,17支队伍在语义评分(SemScore)上表现优异,最高队伍的WER为8.11%,SemScore为88.44%。
本研究提出了一种新颖的自适应后训练量化算法StableQuant,显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一,并在8位量化下保持字错误率低于0.3%,同时提升推理速度。
AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR,该模型在中文普通话测试集上实现新SOTA,字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求,适用于多种应用场景。
本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题,分析了不同声音诱导的幻觉,并提出了幻觉袋后处理方法,有效降低了字错误率。
本研究提出了一种嵌入层手术,旨在提升多语言自动语音识别模型在支持新语言时的表现,有效将已知语言的字错误率从14.2%降低至11.9%,同时保持未见语言的性能。
本文提出AMPS新技术,通过使用释义作为额外监督信息,显著降低了多语言对话语音识别中的字错误率,提升了印地语和马拉地语等语言的识别效果。
本研究针对尼泊尔语自动语音识别(ASR)模型的不足,提出了一个全面的数据集,并对OpenAI Whisper模型进行了微调,显著降低了字错误率,强调了数据集质量在小语种ASR系统中的重要性。
本研究提出了一种结合波束形成和说话人属性的自动语音识别方法,旨在改善远程麦克风会议转录中的噪声和混响问题。通过真实会议数据预训练神经波束形成器,实验结果表明该方法在降低字错误率方面显著优于其他方法,具有实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。