CTC-GMM:用于快速准确流式语音翻译的CTC引导模态匹配
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了流式语音翻译中由于人工数据标注成本高导致的目标语言文本标签通常为伪标签的问题。我们提出了一种名为CTC-GMM的方法,通过利用大量机器翻译文本数据,基于CTC将语音序列压缩为与对应文本序列匹配的紧凑嵌入序列,从而提升流式语音翻译模型的性能。评估结果显示,该方法分别提高了FLEURS和CoVoST2数据集的翻译准确率13.9%和6.4%,同时在GPU上提升了解码速度59.7%。
本研究提出了一种创新的同步双语联结主义时间分类框架,通过双重 CTC 缩小语音翻译中的模态和语言差距。模型将转录和翻译作为并行目标,提升了音频与文本、源语言与目标语言的连接。在资源有限的情况下,增强的 BiL-CTC+ 变体表现出色,显著提高了语音识别性能,展示了跨语言学习的效果和广泛适用性。