BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

CATSE: 一种用于因果目标声音提取的上下文感知框架

目标声音提取(TSE)侧重于从输入混音中分离用户提示的感兴趣源的问题。本文介绍了一种适用于实时处理的上下文感知低延迟因果 TSE 模型,并探索了使用上下文信息的效用,既可通过提供完整上下文信息,也可通过提出的多任务训练损失来实现,从而证明我们的模型在实时 TSE 中胜过了 Waveformer 等实时 TSE 的先进模型。

本文提出了一种统一的通道感知自监督学习框架(CaSS),通过设计一个新的基于 Transformer 的编码器(CaT)来捕捉 MTS 不同时间通道之间的复杂关系,并结合 Next Trend Prediction(NTP)和 Contextual Similarity(CS)两种新颖的预训练任务来实现自监督学习的表示学习。实验结果表明,该框架在几个常用的基准数据集上均达到了新的最优成果,并可应用于下游 MTS 分类。

MTS Transformer 下游 MTS 分类 编码器 通道感知自监督学习框架

相关推荐 去reddit讨论