基于双模态语义相似性的弱监督音频分离
原文约500字,阅读约需1分钟。发表于: 。通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态(即音频)中使用条件模态(即语言)中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明,如果我们可以访问两个模态之间(即 CLAP)的预训练联合嵌入模型,这是可以实现的。另外,我们还在两个基本场景中将我们的框架纳入进行了改进,通过减小训练样本和测试样本之间的分布差异,我们的方法显著提高了纯无监督基准的性能,并且在信噪比(SDR)方面可以实现 71%的提升,达到了有监督学习性能的 97.5%。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身,可以进一步提高性能,使其成为强大的半监督音频分离框架。
本文提出了一个通用双模分离框架,可以在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离。实验证明,通过访问预训练联合嵌入模型,可以实现这一目标。该框架显著提高了纯无监督基准的性能,并且在信噪比方面可以实现71%的提升。通过弱监督框架扩充有监督学习,可以进一步提高性能,使其成为强大的半监督音频分离框架。