语义分组网络用于音频源分离
发表于: 。最近,音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为 SGN 的新型语义分组网络,可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN 通过可学习的声音类别标记将按类别聚合声源特征,然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验,结果表明我们的 SGN 明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。
最近,音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为 SGN 的新型语义分组网络,可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN 通过可学习的声音类别标记将按类别聚合声源特征,然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验,结果表明我们的 SGN 明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。