语音识别变换器:拓扑语言主义视角
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了双解码器Transformer的新模型架构,该模型同时执行自动语音识别和多语言语音翻译。通过两个解码器的相互交互,该模型在多语言设置中表现优异,并且在ASR和ST之间没有权衡。
🎯
关键要点
- 本文介绍了双解码器Transformer的新模型架构。
- 该模型同时执行自动语音识别(ASR)和多语言语音翻译(ST)。
- 模型基于原始Transformer体系结构,由两个解码器组成,分别负责ASR和ST任务。
- 解码器通过双关注机制相互交互。
- 提出了两种不同的体系结构变体:并行双解码器Transformer和交叉双解码器Transformer。
- 在MuST-C数据集上进行的实验显示,该模型在多语言设置中表现优异。
- 模型在翻译性能上优于以前报道的最高结果,并且优于双语一对一结果。
- 并行模型在ASR和ST之间没有权衡,相对于香草多任务体系结构表现更佳。
➡️