MSLM-S2ST:一个适用于无文本语音到语音翻译的多任务语音语言模型,保持说话人风格
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种联合语音与语言模型(SLM),通过冻结预训练的基础模型并训练一个简单适配器,SLM在传统任务上表现出强大性能,并具备零-shot指导的新颖能力。研究表明,预训练的语音和语言模型之间的表征差距较小,可以通过简单的适应机制来弥合。SLM不仅训练高效,还继承了不同模态基础模型的强大能力。
🎯
关键要点
-
提出了一种联合语音与语言模型(SLM),是一种多任务、多语种、双模态的模型。
-
SLM 通过冻结预训练的基础模型,保留其能力,仅训练包含 1% 参数的简单适配器。
-
在传统任务上(如语音识别和语音翻译)取得了强大性能,并具备零-shot 指导能力。
-
SLM 能够完成多样化任务,包括上下文偏置语音识别、对话生成、语音延续和问答。
-
研究表明,预训练的语音和语言模型之间的表征差距较小,可以通过简单适应机制弥合。
-
SLM 训练高效,继承了不同模态基础模型的强大能力。
➡️