本文提出了一种联合语音与语言模型(SLM),通过冻结预训练模型并训练简单适配器,在语音识别和翻译任务中表现优异。SLM 具备零-shot 指导能力,能够处理多样化任务,表明语音与语言模型之间的表征差距较小。研究还展示了多任务学习框架在自动语音识别和翻译中的有效性,显著降低了词错误率并提高了 BLEU 分数。
本文提出了一种联合语音与语言模型(SLM),通过冻结预训练基础模型,仅训练简单适配器,提升语音识别和翻译性能。SLM展现出强大的零-shot能力,支持多样化任务,训练高效,能够弥合预训练模型间的表征差距。
完成下面两步后,将自动完成登录并继续当前操作。