小红花·文摘

AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响

实时互动网 ·

本文提出了一个通用双模分离框架，可以在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离。实验证明，通过访问预训练联合嵌入模型，可以实现这一目标。该框架显著提高了纯无监督基准的性能，并且在信噪比方面可以实现71%的提升。通过弱监督框架扩充有监督学习，可以进一步提高性能，使其成为强大的半监督音频分离框架。

基于双模态语义相似性的弱监督音频分离

BriefGPT - AI 论文速递 ·