BriefGPT - AI 论文速递 ·

一种低资源语音识别的新型自训练方法

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

本文介绍了自我训练在端到端语音识别中的应用，使用伪标签训练深度学习模型的方法，实验证明该方法可以显著提高准确率。通过语音和语言模型生成伪标签和序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性。实验结果显示，在噪声语音环境下，自我训练的集成模型相对于只使用100小时标记数据的基准模型，字错率提高了33.9%。在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间的差距，提高了至少93.8%。

🎯

关键要点

自我训练在端到端语音识别中的应用
使用伪标签训练深度学习模型的方法
该方法显著提高基准模型的准确率
通过语音和语言模型生成伪标签
采用序列到序列模型的过滤机制
新颖的集成方法提高伪标签的多样性
在噪声语音环境下，自我训练的集成模型字错率提高33.9%
在清晰语音环境下，自我训练弥补基准模型和理想模型之间的差距，提高至少93.8%

🏷️

继续阅读

Tevogen生物公司简化救命疗法的历程
Tevogen.AI团队成功训练了PredicTcell模型，召回率达到93-97%，准确率为38-43%。通过扩展数据集和优化训练方法，未来将推出Bet...
RAVATAR借助Gemini原生音频技术，为AI化身带来更自然的实时语音交互体验
RAVATAR于2026年3月24日宣布，其Genesis AI Avatar Studio集成了Gemini Native Audio，提升了语音交互的...
IBM咨询以“三大协同”助力大湾区企业应对资源“错配”
全球科技革命加速，粤港澳大湾区成为高质量发展的关键。企业面临智力、人才和技术短缺。IBM咨询提出“三大协同”解决方案，以助力企业资源整合，提升效率与质量。
Vonage 将语音功能嵌入到 ServiceNow 中
Vonage正式推出与ServiceNow Voice的原生集成，将语音和AI功能嵌入ServiceNow平台，提升客户服务和IT支持的自动化能力，进一步...
高考志愿信息差有多狠？张雪峰拼到猝死，普通家庭更该看懂
张雪峰于2026年因心源性猝死，享年42岁。他的离世与高强度工作和压力有关，而非跑步。他的课程帮助了许多家庭，但也引发争议，标志着一个时代的结束，提醒人们...
ReliableSite 美国大硬盘存储服务器 $99/月起：40T HDD/1Gbps不限流量纽约/迈阿密/洛杉矶
CloudCone的KVM VPS服务起价为$14.99/年，配置包括2核CPU、1GB内存、20GB SSD存储和1Gbps带宽，数据中心位于洛杉矶。