联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。
自动语音识别(ASR)系统在过去十年取得了显著进展,但对有语言障碍个体的表现仍然不足。为了解决这一问题,2025年启动了语音可及性项目挑战,利用超过400小时的来自500多名有语言障碍个体的数据。挑战评估结果显示,12支队伍在字错误率(WER)上超越基线,17支队伍在语义评分(SemScore)上表现优异,最高队伍的WER为8.11%,SemScore为88.44%。
本研究提出了一种新颖的自适应后训练量化算法StableQuant,显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一,并在8位量化下保持字错误率低于0.3%,同时提升推理速度。
AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR,该模型在中文普通话测试集上实现新SOTA,字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求,适用于多种应用场景。
本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题,分析了不同声音诱导的幻觉,并提出了幻觉袋后处理方法,有效降低了字错误率。
本研究提出了一种嵌入层手术,旨在提升多语言自动语音识别模型在支持新语言时的表现,有效将已知语言的字错误率从14.2%降低至11.9%,同时保持未见语言的性能。
本文提出AMPS新技术,通过使用释义作为额外监督信息,显著降低了多语言对话语音识别中的字错误率,提升了印地语和马拉地语等语言的识别效果。
本研究针对尼泊尔语自动语音识别(ASR)模型的不足,提出了一个全面的数据集,并对OpenAI Whisper模型进行了微调,显著降低了字错误率,强调了数据集质量在小语种ASR系统中的重要性。
本研究提出了一种结合波束形成与说话人属性识别的方法,有效解决远程会议转录中的噪声和混响问题。实验结果显示,该方法显著降低了字错误率,具备实际应用潜力。
本文研究了无监督文本到语音合成技术在改进口音语音识别中的应用。通过少量口音数据和伪标签生成合成语音,与无口音数据结合用于训练语音识别模型。实验表明,使用合成口音数据微调的Wav2vec2.0模型字错误率降低了6.1%。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。
本文提出了一种非破坏性的基于令牌的方法,用于解决自动语音识别中传统字错误率计算的局限性。该方法能够计算更加稳健的WER和其他正字法指标,并对转录错误进行更细致的分类。研究表明,该方法在多个数据集上的效果与常用的WER计算方式相当。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的合成语音数据进行微调可以显著降低字错误率。
完成下面两步后,将自动完成登录并继续当前操作。