小红花·文摘 - 小红花技术领袖俱乐部

为语音识别启用差分隐私的联邦学习：基准测试、自适应优化器与梯度裁剪

为语音识别启用差分隐私的联邦学习：基准测试、自适应优化器与梯度裁剪

Apple Machine Learning Research ·

2025年国际语音通信会议语音可及性项目挑战

2025年国际语音通信会议语音可及性项目挑战

Apple Machine Learning Research ·

本研究提出了一种新颖的自适应后训练量化算法StableQuant，显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一，并在8位量化下保持字错误率低于0.3%，同时提升推理速度。

StableQuant: Layer-wise Adaptive Post-Training Quantization for Speech Foundation Models

BriefGPT - AI 论文速递 ·

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

机器之心 ·

本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题，分析了不同声音诱导的幻觉，并提出了幻觉袋后处理方法，有效降低了字错误率。

非语音音频诱导的Whisper ASR幻觉研究

BriefGPT - AI 论文速递 ·

本研究提出了一种嵌入层手术，旨在提升多语言自动语音识别模型在支持新语言时的表现，有效将已知语言的字错误率从14.2%降低至11.9%，同时保持未见语言的性能。

Achieving Continual Learning through Embedding Layer Surgery and Task-Based Beam Search

BriefGPT - AI 论文速递 ·

本文提出AMPS新技术，通过使用释义作为额外监督信息，显著降低了多语言对话语音识别中的字错误率，提升了印地语和马拉地语等语言的识别效果。

AMPS：具有多模态释义监督的自动语音识别

BriefGPT - AI 论文速递 ·

本研究针对尼泊尔语自动语音识别（ASR）模型的不足，提出了一个全面的数据集，并对OpenAI Whisper模型进行了微调，显著降低了字错误率，强调了数据集质量在小语种ASR系统中的重要性。

Whisper模型在尼泊尔语中的微调

BriefGPT - AI 论文速递 ·

本研究提出了一种结合波束形成和说话人属性的自动语音识别方法，旨在改善远程麦克风会议转录中的噪声和混响问题。通过真实会议数据预训练神经波束形成器，实验结果表明该方法在降低字错误率方面显著优于其他方法，具有实际应用潜力。

Joint Beamforming and Speaker-Attributed Automatic Speech Recognition for Real Distant-Microphone Meeting Transcription

BriefGPT - AI 论文速递 ·