持续音视频声音分离
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种新的持续音视频声音分离任务,旨在在保持对之前学习的类别性能的同时,为新类别持续分离声音源,借助视觉指导。我们提出的ContAV-Sep方法通过交叉模态相似性蒸馏约束来维持语义相似性,显著减轻了灾难性遗忘的风险,实验结果表明该方法在音视频声音分离领域相较于其他基线具有更好的性能。
本文提出了一种新的持续音视频声音分离方法ContAV-Sep,该方法通过视觉指导保持类别性能,降低灾难性遗忘风险。实验结果表明,其在音视频声音分离领域表现优异。