BriefGPT - AI 论文速递 ·

DeSTA: 通过描述性语音文本对齐提升语音语言模型

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种联合语音与语言模型（SLM），通过冻结预训练模型并训练简单适配器，在语音识别和翻译任务中表现优异。SLM 具备零-shot 指导能力，能够处理多样化任务，表明语音与语言模型之间的表征差距较小。研究还展示了多任务学习框架在自动语音识别和翻译中的有效性，显著降低了词错误率并提高了 BLEU 分数。

🎯

关键要点

提出了一种联合语音与语言模型（SLM），通过冻结预训练模型并训练简单适配器，取得强大性能。
SLM 具备零-shot 指导能力，能够完成多样化任务，如上下文偏置语音识别和对话生成。
研究表明，预训练的语音和语言模型之间的表征差距较小，可以通过简单适应机制弥合。
多任务学习框架在自动语音识别和翻译中有效，显著降低了词错误率并提高了 BLEU 分数。

❓

延伸问答

什么是联合语音与语言模型（SLM）？

联合语音与语言模型（SLM）是一种多任务、多语种、双模态的模型，利用预训练的语音和语言基础模型，通过冻结基础模型并训练简单适配器来提升性能。

SLM在语音识别和翻译任务中表现如何？

SLM在语音识别和翻译任务中表现优异，显著降低了词错误率并提高了BLEU分数。

SLM具备哪些能力？

SLM具备零-shot指导能力，能够完成上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。

SLM如何弥合语音与语言模型之间的表征差距？

SLM通过简单的适应机制，表明预训练的语音和语言模型之间的表征差距较小，可以有效弥合。

多任务学习框架在SLM中的作用是什么？

多任务学习框架在SLM中有效提升了自动语音识别和翻译的性能，利用文本数据来增强模型能力。

SLM的训练效率如何？

SLM的训练效率高，因为它只训练包含1%的基础模型参数的简单适配器，同时保留了预训练模型的能力。

🏷️