我们与CTC Global合作,加速美国电网下一代传输技术的部署。CTC Global的先进导体可提升电网容量和可靠性。通过信息请求识别高影响力的传输线路,选定合作伙伴将获得资源支持,以促进经济增长和降低能源成本。
AIxiv专栏促进学术交流,报道超过2000篇内容。新一代Kaldi团队提出CR-CTC算法,提升语音识别性能,并在多个数据集上取得新SOTA结果。该方法通过一致性正则化优化CTC模型,增强模型的泛化能力。
本研究提出了一种CTC辅助的上下文自动语音识别模型,旨在解决现有系统在识别稀有词汇时的局限性。通过有效的过滤算法,该模型在Librispeech测试集上显著提升了识别性能。
本文探讨了深度学习在语音到文本翻译中的应用,重点研究了端到端架构和CTC损失函数的影响。预训练模型显著提升了翻译性能,实验结果表明其在多个数据集上超越了现有系统。此外,提出了基于CTC的动态音频信号压缩方法和流式多语言模型,优化了翻译质量和效率。
本文介绍了一种基于CTC的自动语音识别(ASR)模型,通过引入辅助损失函数和知识转移方法,显著提高了识别准确率并减少了字符错误率。研究还探讨了CTC与注意力机制的联合训练,提出了优化对齐和性能提升的框架,实验结果表明新方法在多个数据集上表现优越。
本文介绍了一种基于CTC的全神经网络语音识别器设计方法,评估结果显示其性能优于以往系统。提出的新型层和相位重建策略显著提升了语音增强和合成效率。同时,研究了音频反欺骗技术和新型数据增强方法PhasePerturbation,均有效提高了系统性能。
本文介绍了一种基于CTC/注意力混合架构的视觉语音识别(VSR)模型,该模型结合音频和视觉模态,特别在噪声环境中表现优异。通过优化设计和数据增强,模型在多个数据集上实现了领先的识别准确率,展示了其在视觉语音识别领域的重要贡献。
本文介绍了一种名为聚焦判别训练(FDT)的新训练框架,旨在改善流式端到端自动语音识别模型在识别挑战性音频片段方面的表现。该框架独立于隐马尔可夫模型和格,减少了在标准判别训练中需进行的复杂决策,同时在LibriSpeech上实现了更大幅度的字错误率降低。
近年来,端到端(E2E)自动语音识别(ASR)模型在深度学习架构的推动下取得了显著进展。研究者通过与音素模型的联合训练,显著提高了模型的准确性。本文提出了一种高效的联合训练方法,利用多样化建模单元,进一步增强了模型的准确性,为开发更强大的ASR系统提供了新思路。
本文提出了一种基于上下文感知的变形器转录方法,通过动态调整偏差列表优化语音识别性能。实验证明,该方法在常见情况下可减少词错误率(WER)和字符错误率(CER),并在个性化情况下保持良好表现。此外,研究展示了轻量级字符表示和上下文编码的有效性,显著提高了识别精度,尤其在处理稀有单词时表现突出。
本文介绍了一种基于连接主义时间分类(CTC)的非自回归语音翻译模型,采用预测感知编码和跨层注意力方法,显著提高了解码速度和翻译质量。实验结果显示,该模型在多个基准测试中优于自回归模型,具有更高的BLEU分数和加速效果。
我们提出了一种新颖的 kNN-CTC 基于代码切换 ASR 框架,它采用双语言数据存储和门控数据存储选择机制以减少噪音干扰。我们将此框架应用于先进的 CTC-based 模型,开发出一种先进的中英文代码切换 ASR 系统。广泛的实验证明了我们的门控数据存储机制在提高零 - shot 中英文代码切换 ASR 性能方面的卓越效果。
该研究论文探讨了端到端自动语音识别(ASR)模型的分类与改进,分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测,显著提高了性能。通过多样化训练数据和模块化培训框架,增强了模型的泛化能力,并提出将外部语言模型整合进E2E系统以降低词错误率。
我们提出了一种联合建模方案,通过多任务学习和三种新的单通道波束搜索算法,我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能,并超过了使用单个解码器的模型。
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。
本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型,以及唇语识别与音频识别的互补性。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型的表现超过了以前的相关工作。
通过在自动语音识别模型的编码器的中间层引入语言识别信息,本文旨在以更加隐式的方式生成暗示语言区别的声学特征,降低模型在处理语言切换时的混淆。
本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型在有噪音的情况下表现优于以前的相关工作。
本研究提出同步双语联结主义时间分类框架,填补语音翻译任务中模态和语言之间的差距。开发了增强的变体BiL-CTC+,提高了语音识别性能,展示了广泛适用性。
该论文提出了一种使用UMA的非自回归自动语音识别方法,可以缩短序列长度,降低识别错误和计算复杂度。实验证明UMA在非自回归方法中表现出优越或可比较的性能,并且通过将自条件CTC集成到该方法中,性能可以进一步提高。
完成下面两步后,将自动完成登录并继续当前操作。