揭示预训练在直接语音翻译中的作用

本研究解决了直接语音翻译系统在数据稀缺性方面的主要问题。通过比较使用预训练编码器和从头训练的系统，我们发现预训练可以让模型更有效地聚焦语义建模，同时提出了一种改进的解码器交叉注意力机制。实验结果表明，该改进使得从头训练的模型在性能上可与预训练模型相媲美，同时缩短了训练时间。

本文介绍了一种在语音翻译中使用离散语音单元的自监督学习模型。通过在有限数据上微调，使模型更紧凑，推理更快。相比传统的自动语音识别预训练，该方法无需转录，适合资源有限的环境。在CoVoST-2 X-En数据集上，提升了0.5的BLEU得分，模型大小减半，效果与传统方法相当。

BLEU得分离散语音单元自监督学习语音翻译资源有限环境