PSALM: 基于大型多模型的逐像素分割

原文约400字,阅读约需1分钟。发表于:

PSALM 是基于大型多模态模型(LMM)的强大扩展,用于解决分割任务的挑战,通过引入掩码解码器和精心设计的输入模式来处理各种分割任务,并且能够生成和分类分割掩码,支持多个数据集和任务的联合训练,具有卓越的性能和任务泛化能力,对图像分割领域具有潜力。

本文介绍了一种新颖的语音增强语言模型(SALM),具有多任务和上下文学习能力。SALM在自动语音识别和语音翻译等任务上表现出色,并通过关键词增强任务验证了其零-shot上下文学习能力。作者还提出了语音监督上下文训练方法,进一步提升了模型的上下文学习能力。

相关推荐 去reddit讨论