小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

我们与CTC Global合作,加速美国电网下一代传输技术的部署。CTC Global的先进导体可提升电网容量和可靠性。通过信息请求识别高影响力的传输线路,选定合作伙伴将获得资源支持,以促进经济增长和降低能源成本。

我们与CTC Global合作,以提升和改善美国电网的容量

The Keyword
The Keyword · 2025-06-17T17:59:00Z
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

AIxiv专栏促进学术交流,报道超过2000篇内容。新一代Kaldi团队提出CR-CTC算法,提升语音识别性能,并在多个数据集上取得新SOTA结果。该方法通过一致性正则化优化CTC模型,增强模型的泛化能力。

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

机器之心
机器之心 · 2025-02-07T05:38:01Z

本研究提出了一种CTC辅助的上下文自动语音识别模型,旨在解决现有系统在识别稀有词汇时的局限性。通过有效的过滤算法,该模型在Librispeech测试集上显著提升了识别性能。

基于CTC的LLM辅助上下文自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

本研究提出了一种创新的同步双语联结主义时间分类框架,通过双重 CTC 缩小语音翻译中的模态和语言差距。模型将转录和翻译作为并行目标,提升了音频与文本、源语言与目标语言的连接。在资源有限的情况下,增强的 BiL-CTC+ 变体表现出色,显著提高了语音识别性能,展示了跨语言学习的效果和广泛适用性。

CTC-GMM:用于快速准确流式语音翻译的CTC引导模态匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文介绍了一种改进CTC模型的方法,通过利用标签先验知识减少路径中的空白对齐得分,从而提升训练效果。在Buckeye和TIMIT数据集上,该方法的音素和词边界错误率降低了12-40%。与MFA相比,Buckeye表现相似,TIMIT稍逊,但训练流程更简单高效。相关训练步骤和预训练模型已在TorchAudio发布。

CR-CTC:用于改进语音识别的一致性正则化CTC

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法在VSR基准测试中以极少的资源实现了竞争性的性能,微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。

增强CTC基础的视觉语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本论文研究了使用自注意力机制的CTC和序列到序列两种模型进行唇语识别,并介绍了新的数据集LRS2-BBC。实验结果表明,该模型在唇语识别方面表现优于以前的相关工作。

基于对称视角的冗余感知唇读模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文介绍了一种名为聚焦判别训练(FDT)的新训练框架,旨在改善流式端到端自动语音识别模型在识别挑战性音频片段方面的表现。该框架独立于隐马尔可夫模型和格,减少了在标准判别训练中需进行的复杂决策,同时在LibriSpeech上实现了更大幅度的字错误率降低。

聚焦判别训练用于流式CTC训练的自动语音识别模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-23T00:00:00Z

In recent years, the evolution of end-to-end (E2E) automatic speech recognition (ASR) models has been remarkable, largely due to advances in deep learning architectures like transformer. On top of...

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

Apple Machine Learning Research
Apple Machine Learning Research · 2024-07-12T00:00:00Z

该研究提出了一种轻量级字符表示的方法,用于编码精细的发音特征并执行情境偏倚。实验结果显示,该方法在不同情境偏见列表大小上相对于基线模型提高了4.62%-9.26%的识别准确率。在大规模数据集上,相对于基准模型,识别准确率提高了7.91%。在稀有单词和尾部话语的测试集上,相对识别准确率的改善分别达到了36.80%和23.40%。

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

通过预训练、知识蒸馏和非自回归训练技术,基于CTC的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了26.81倍的解码速度。

基于 CTC 的非自回归式无文字语音翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

我们提出了一种新颖的 kNN-CTC 基于代码切换 ASR 框架,它采用双语言数据存储和门控数据存储选择机制以减少噪音干扰。我们将此框架应用于先进的 CTC-based 模型,开发出一种先进的中英文代码切换 ASR 系统。广泛的实验证明了我们的门控数据存储机制在提高零 - shot 中英文代码切换 ASR 性能方面的卓越效果。

利用 kNN-CTC 和门控单语数据存储改进零 - shot 中英混编自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

近年来,端到端自动语音识别模型的演变令人瞩目。研究人员通过重新评分音素模型的最佳假设,提高了E2E模型的准确性。联合训练E2E模型与多样的建模单元可以显著提高模型准确性,为开发更可靠准确的ASR系统提供了新的见解。

提升基于 CTC 的语音识别的多样建模单元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

我们提出了一种联合建模方案,通过多任务学习和三种新的单通道波束搜索算法,我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能,并超过了使用单个解码器的模型。

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。

OWSM-CTC:一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-20T00:00:00Z

本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型,以及唇语识别与音频识别的互补性。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型的表现超过了以前的相关工作。

一对一对话中通过面部表情检测听力损失

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-17T00:00:00Z

通过在自动语音识别模型的编码器的中间层引入语言识别信息,本文旨在以更加隐式的方式生成暗示语言区别的声学特征,降低模型在处理语言切换时的混淆。

利用语言识别计算中间 CTC 损失以增强代码交替语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-15T00:00:00Z

本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型在有噪音的情况下表现优于以前的相关工作。

LIP-RTVE:西班牙连续口语的音视数据库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-21T00:00:00Z

本研究提出同步双语联结主义时间分类框架,填补语音翻译任务中模态和语言之间的差距。开发了增强的变体BiL-CTC+,提高了语音识别性能,展示了广泛适用性。

跨语种和语言模态之间的桥梁:同步双语 CTC 用于语音翻译和语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-21T00:00:00Z

该论文提出了一种使用UMA的非自回归自动语音识别方法,可以缩短序列长度,降低识别错误和计算复杂度。实验证明UMA在非自回归方法中表现出优越或可比较的性能,并且通过将自条件CTC集成到该方法中,性能可以进一步提高。

基于 CTC 的语音识别的单模聚合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码