语音识别变换器:拓扑语言主义视角

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了双解码器Transformer的新模型架构,该模型同时执行自动语音识别和多语言语音翻译。通过两个解码器的相互交互,该模型在多语言设置中表现优异,并且在ASR和ST之间没有权衡。

🎯

关键要点

  • 本文介绍了双解码器Transformer的新模型架构。
  • 该模型同时执行自动语音识别(ASR)和多语言语音翻译(ST)。
  • 模型基于原始Transformer体系结构,由两个解码器组成,分别负责ASR和ST任务。
  • 解码器通过双关注机制相互交互。
  • 提出了两种不同的体系结构变体:并行双解码器Transformer和交叉双解码器Transformer。
  • 在MuST-C数据集上进行的实验显示,该模型在多语言设置中表现优异。
  • 模型在翻译性能上优于以前报道的最高结果,并且优于双语一对一结果。
  • 并行模型在ASR和ST之间没有权衡,相对于香草多任务体系结构表现更佳。
➡️

继续阅读