小红花·文摘

我们与CTC Global合作，加速美国电网下一代传输技术的部署。CTC Global的先进导体可提升电网容量和可靠性。通过信息请求识别高影响力的传输线路，选定合作伙伴将获得资源支持，以促进经济增长和降低能源成本。

我们与CTC Global合作，以提升和改善美国电网的容量

The Keyword ·

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

机器之心 ·

本研究提出了一种CTC辅助的上下文自动语音识别模型，旨在解决现有系统在识别稀有词汇时的局限性。通过有效的过滤算法，该模型在Librispeech测试集上显著提升了识别性能。

基于CTC的LLM辅助上下文自动语音识别

BriefGPT - AI 论文速递 ·

本文探讨了深度学习在语音到文本翻译中的应用，重点研究了端到端架构和CTC损失函数的影响。预训练模型显著提升了翻译性能，实验结果表明其在多个数据集上超越了现有系统。此外，提出了基于CTC的动态音频信号压缩方法和流式多语言模型，优化了翻译质量和效率。

CTC-GMM：用于快速准确流式语音翻译的CTC引导模态匹配

BriefGPT - AI 论文速递 ·

本文介绍了一种基于CTC的自动语音识别（ASR）模型，通过引入辅助损失函数和知识转移方法，显著提高了识别准确率并减少了字符错误率。研究还探讨了CTC与注意力机制的联合训练，提出了优化对齐和性能提升的框架，实验结果表明新方法在多个数据集上表现优越。

CR-CTC：用于改进语音识别的一致性正则化CTC

BriefGPT - AI 论文速递 ·

本文介绍了一种基于CTC的全神经网络语音识别器设计方法，评估结果显示其性能优于以往系统。提出的新型层和相位重建策略显著提升了语音增强和合成效率。同时，研究了音频反欺骗技术和新型数据增强方法PhasePerturbation，均有效提高了系统性能。

阶段性和先验意识的神经语音相位预测

BriefGPT - AI 论文速递 ·

本文介绍了一种基于CTC/注意力混合架构的视觉语音识别（VSR）模型，该模型结合音频和视觉模态，特别在噪声环境中表现优异。通过优化设计和数据增强，模型在多个数据集上实现了领先的识别准确率，展示了其在视觉语音识别领域的重要贡献。

增强CTC基础的视觉语音识别

BriefGPT - AI 论文速递 ·

本文介绍了一种名为聚焦判别训练（FDT）的新训练框架，旨在改善流式端到端自动语音识别模型在识别挑战性音频片段方面的表现。该框架独立于隐马尔可夫模型和格，减少了在标准判别训练中需进行的复杂决策，同时在LibriSpeech上实现了更大幅度的字错误率降低。

聚焦判别训练用于流式CTC训练的自动语音识别模型

BriefGPT - AI 论文速递 ·

利用多样化建模单元增强基于CTC的语音识别

Apple Machine Learning Research ·

本文提出了一种基于上下文感知的变形器转录方法，通过动态调整偏差列表优化语音识别性能。实验证明，该方法在常见情况下可减少词错误率（WER）和字符错误率（CER），并在个性化情况下保持良好表现。此外，研究展示了轻量级字符表示和上下文编码的有效性，显著提高了识别精度，尤其在处理稀有单词时表现突出。

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

BriefGPT - AI 论文速递 ·

本文介绍了一种基于连接主义时间分类（CTC）的非自回归语音翻译模型，采用预测感知编码和跨层注意力方法，显著提高了解码速度和翻译质量。实验结果显示，该模型在多个基准测试中优于自回归模型，具有更高的BLEU分数和加速效果。

基于 CTC 的非自回归式无文字语音翻译

BriefGPT - AI 论文速递 ·

我们提出了一种新颖的 kNN-CTC 基于代码切换 ASR 框架，它采用双语言数据存储和门控数据存储选择机制以减少噪音干扰。我们将此框架应用于先进的 CTC-based 模型，开发出一种先进的中英文代码切换 ASR 系统。广泛的实验证明了我们的门控数据存储机制在提高零 - shot 中英文代码切换 ASR 性能方面的卓越效果。

利用 kNN-CTC 和门控单语数据存储改进零 - shot 中英混编自动语音识别

BriefGPT - AI 论文速递 ·

该研究论文探讨了端到端自动语音识别（ASR）模型的分类与改进，分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测，显著提高了性能。通过多样化训练数据和模块化培训框架，增强了模型的泛化能力，并提出将外部语言模型整合进E2E系统以降低词错误率。

提升基于 CTC 的语音识别的多样建模单元

BriefGPT - AI 论文速递 ·

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

BriefGPT - AI 论文速递 ·

基于连接主义时间分类（CTC）的新型仅编码器语音模型（OWSM-CTC）在多语言自动语音识别（ASR），语音翻译（ST）和语言识别（LID）任务上取得了有竞争力的结果，并在ST上提高了25％的相对改进。该模型在推断中更为稳健且速度更快，同时也对长形式ASR结果有20倍的加速。

OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

BriefGPT - AI 论文速递 ·

本论文研究了唇语识别的两种模型：使用自注意力机制的CTC和序列到序列模型，以及唇语识别与音频识别的互补性。同时，介绍了新的数据集LRS2-BBC，并公开发布。实验结果表明，该模型的表现超过了以前的相关工作。

一对一对话中通过面部表情检测听力损失

BriefGPT - AI 论文速递 ·

通过在自动语音识别模型的编码器的中间层引入语言识别信息，本文旨在以更加隐式的方式生成暗示语言区别的声学特征，降低模型在处理语言切换时的混淆。

利用语言识别计算中间 CTC 损失以增强代码交替语音识别

BriefGPT - AI 论文速递 ·

本论文研究了唇语识别的两种模型：使用自注意力机制的CTC和序列到序列模型。同时，介绍了新的数据集LRS2-BBC，并公开发布。实验结果表明，该模型在有噪音的情况下表现优于以前的相关工作。

LIP-RTVE：西班牙连续口语的音视数据库

BriefGPT - AI 论文速递 ·

本研究提出同步双语联结主义时间分类框架，填补语音翻译任务中模态和语言之间的差距。开发了增强的变体BiL-CTC+，提高了语音识别性能，展示了广泛适用性。

跨语种和语言模态之间的桥梁：同步双语 CTC 用于语音翻译和语音识别

BriefGPT - AI 论文速递 ·

该论文提出了一种使用UMA的非自回归自动语音识别方法，可以缩短序列长度，降低识别错误和计算复杂度。实验证明UMA在非自回归方法中表现出优越或可比较的性能，并且通过将自条件CTC集成到该方法中，性能可以进一步提高。

基于 CTC 的语音识别的单模聚合

BriefGPT - AI 论文速递 ·