小红花·文摘

本文提出了一种联合语音与语言模型（SLM），通过冻结预训练模型并训练简单适配器，在语音识别和翻译任务中表现优异。SLM 具备零-shot 指导能力，能够处理多样化任务，表明语音与语言模型之间的表征差距较小。研究还展示了多任务学习框架在自动语音识别和翻译中的有效性，显著降低了词错误率并提高了 BLEU 分数。

DeSTA: 通过描述性语音文本对齐提升语音语言模型

BriefGPT - AI 论文速递 ·

本文提出了一种联合语音与语言模型（SLM），通过冻结预训练基础模型，仅训练简单适配器，提升语音识别和翻译性能。SLM展现出强大的零-shot能力，支持多样化任务，训练高效，能够弥合预训练模型间的表征差距。

SpeechVerse: 一个大规模可推广的音频语言模型

BriefGPT - AI 论文速递 ·