小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-29T00:00:00Z
2025年国际语音通信会议语音可及性项目挑战

自动语音识别(ASR)系统在过去十年取得了显著进展,但对有语言障碍个体的表现仍然不足。为了解决这一问题,2025年启动了语音可及性项目挑战,利用超过400小时的来自500多名有语言障碍个体的数据。挑战评估结果显示,12支队伍在字错误率(WER)上超越基线,17支队伍在语义评分(SemScore)上表现优异,最高队伍的WER为8.11%,SemScore为88.44%。

2025年国际语音通信会议语音可及性项目挑战

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

本研究提出了一种新颖的自适应后训练量化算法StableQuant,显著优化了语音基础模型的量化性能。该算法将模型尺寸缩小至四分之一,并在8位量化下保持字错误率低于0.3%,同时提升推理速度。

StableQuant: Layer-wise Adaptive Post-Training Quantization for Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

AIxiv报道小红书FireRed团队发布的开源语音识别模型FireRedASR,该模型在中文普通话测试集上实现新SOTA,字错误率降低8.4%。FireRedASR包括FireRedASR-LLM和FireRedASR-AED两种结构,分别满足高精度和高效推理需求,适用于多种应用场景。

小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

机器之心
机器之心 · 2025-02-09T06:35:13Z

本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题,分析了不同声音诱导的幻觉,并提出了幻觉袋后处理方法,有效降低了字错误率。

非语音音频诱导的Whisper ASR幻觉研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了一种嵌入层手术,旨在提升多语言自动语音识别模型在支持新语言时的表现,有效将已知语言的字错误率从14.2%降低至11.9%,同时保持未见语言的性能。

Achieving Continual Learning through Embedding Layer Surgery and Task-Based Beam Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z

本文提出AMPS新技术,通过使用释义作为额外监督信息,显著降低了多语言对话语音识别中的字错误率,提升了印地语和马拉地语等语言的识别效果。

AMPS:具有多模态释义监督的自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究针对尼泊尔语自动语音识别(ASR)模型的不足,提出了一个全面的数据集,并对OpenAI Whisper模型进行了微调,显著降低了字错误率,强调了数据集质量在小语种ASR系统中的重要性。

Whisper模型在尼泊尔语中的微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种结合波束形成与说话人属性识别的方法,有效解决远程会议转录中的噪声和混响问题。实验结果显示,该方法显著降低了字错误率,具备实际应用潜力。

联合波束形成和说话人属性自动语音识别用于真实远程麦克风会议转录

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文研究了无监督文本到语音合成技术在改进口音语音识别中的应用。通过少量口音数据和伪标签生成合成语音,与无口音数据结合用于训练语音识别模型。实验表明,使用合成口音数据微调的Wav2vec2.0模型字错误率降低了6.1%。

自动重音标注和俄语文本转录的算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。

跨方言语音合成中的音调重音语言结合多方言音素级BERT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文提出了一种非破坏性的基于令牌的方法,用于解决自动语音识别中传统字错误率计算的局限性。该方法能够计算更加稳健的WER和其他正字法指标,并对转录错误进行更细致的分类。研究表明,该方法在多个数据集上的效果与常用的WER计算方式相当。

超越莱文斯坦:利用多种算法实现稳健的字错误率计算和细化错误分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的合成语音数据进行微调可以显著降低字错误率。

关于纯合成训练数据对不同自动语音识别体系结构的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码