基于双模态语义相似性的弱监督音频分离

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文提出了一个通用双模分离框架,可以在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离。实验证明,通过访问预训练联合嵌入模型,可以实现这一目标。该框架显著提高了纯无监督基准的性能,并且在信噪比方面可以实现71%的提升。通过弱监督框架扩充有监督学习,可以进一步提高性能,使其成为强大的半监督音频分离框架。

🎯

关键要点

  • 提出了一个通用双模分离框架,能够在训练期间无需访问单一源声音数据进行多源音频混合的有条件声音分离。
  • 通过访问预训练的联合嵌入模型(CLAP),实现了对音频信号的有效分离。
  • 该框架显著提高了纯无监督基准的性能,信噪比提升达71%。
  • 在目标模态中使用条件模态的信号,减小训练样本和测试样本之间的分布差异,进一步提升了性能。
  • 通过弱监督框架扩充有监督学习,形成强大的半监督音频分离框架。
➡️

继续阅读