通义实验室语音团队和自然语言处理团队联盟在2024年云栖大会上推出了端到端语音翻译大模型Gummy,支持多语言实时翻译,翻译延迟低于0.5秒。Gummy还具备多语言混翻、术语干预与领域提示等商业化能力,解决语言障碍和多语言交流需求。
本文比较了不同的无自回归(NAR)建模方法,发现NAR模型可以在序列中生成多个输出,具有在实时应用中的潜力。同时,该研究在自动语音识别领域发现了一些有趣的性能差距,并展示了结合这些技术来提高精度并应用于无自回归端到端语音翻译的能力。
本文介绍了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距,已在端到端语音翻译中取得显著改进。实验证明该方法达到了最先进的结果,并在使用额外数据时取得了新的最先进结果。
该研究介绍了如何在端到端语音翻译中引入目标语言上下文,以增强连贯性并克服扩展音频片段的内存限制。同时,提出了上下文丢弃以确保对上下文缺失的鲁棒性,并通过添加说话者信息进一步提高性能。研究表明,上下文信息主要有助于捕捉上下文风格,并解决指代和命名实体问题。
完成下面两步后,将自动完成登录并继续当前操作。