PSALM: 基于大型多模型的逐像素分割
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新颖的语音增强语言模型(SALM),具有多任务和上下文学习能力。SALM在自动语音识别和语音翻译等任务上表现出色,并通过关键词增强任务验证了其零-shot上下文学习能力。作者还提出了语音监督上下文训练方法,进一步提升了模型的上下文学习能力。
🎯
关键要点
- 提出了一种新颖的语音增强语言模型(SALM),具有多任务和上下文学习能力。
- SALM由固定的文本语言模型、音频编码器、模态适配器模块和LoRA层组成。
- SALM在自动语音识别(ASR)和语音翻译(AST)等任务上表现出色,与Conformer基线性能相当。
- 验证了SALM的零-shot上下文学习能力,通过ASR和AST的关键词增强任务进行验证。
- 提出了语音监督上下文训练方法,提升了模型的上下文学习能力。
- 所提出的模型通过NeMo工具包开源。
➡️