一种非自回归生成框架用于端到端同步任意语音翻译

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文介绍了一种非自回归流式Transformer(NAST),用于同时机器翻译(SiMT),通过新编码器和解码器降低延迟损失,实验证明其优于传统模型。此外,基于CTC的非自回归模型在语音翻译中显著提升了解码速度和翻译质量,展示了在多个基准测试中的优越性。

🎯

关键要点

  • 提出了一种非自回归流式Transformer(NAST),用于同时机器翻译(SiMT),通过新编码器和解码器降低延迟损失。
  • 实验证明NAST优于以往自回归SiMT基线模型。
  • 基于CTC的非自回归模型在语音翻译中显著提升了解码速度和翻译质量,解码速度提升达5.67倍,BLEU分数为29.5。
  • 结合预训练、知识蒸馏和先进的非自回归训练技术,基于CTC的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了解码速度26.81倍。
  • Orthros系统使用条件掩蔽语言模型和CTC模型作为NAR解码器,实验表明在保证翻译质量的前提下,解码速度提高了3.63倍。
  • DASpeech模型通过双通路架构实现高质量翻译,解码速度极快,且新交互式注意机制提升了语音翻译和语音识别的性能。
  • 提出的新型语音翻译范例通过两个分离但同步的解码器实现更高的翻译质量。
  • 基于Transformer的自动语音识别框架实现了更快的解码速度和较好的性能,解码速度是经典自回归模型的58倍。
  • 半自回归Transformer(SAT)在翻译质量和解码速度之间实现了良好平衡。
  • 基于非自回归生成器(NAST)的无监督文本风格转换方法显著提高了性能并提供可解释的单词对齐效果。

延伸问答

什么是非自回归流式Transformer(NAST)?

非自回归流式Transformer(NAST)是一种用于同时机器翻译的模型,通过新编码器和解码器降低延迟损失,实验证明其优于传统自回归模型。

NAST在解码速度和翻译质量上有何提升?

基于CTC的非自回归模型在语音翻译中提升了解码速度26.81倍,翻译质量与自回归模型相当,BLEU分数为29.5。

Orthros系统的工作原理是什么?

Orthros系统使用条件掩蔽语言模型和CTC模型作为解码器,通过两种训练方法增强解码器,实验表明其解码速度提高了3.63倍。

DASpeech模型的特点是什么?

DASpeech模型采用双通路架构,首先生成目标文本,然后根据隐藏状态生成目标语音,具有极快的解码速度和高质量翻译。

半自回归Transformer(SAT)如何平衡翻译质量和解码速度?

SAT模型在保持全局自回归属性的同时减轻了本地自回归属性,能够在每个时间步骤同时产生多个连续的词,从而实现良好的平衡。

基于非自回归生成器(NAST)的文本风格转换方法有什么优势?

NAST的无监督文本风格转换方法显著提高了性能,并提供可解释的单词对齐效果,减轻了内容保留问题。

➡️

继续阅读