基于视觉场景驱动扩散的声音匹配与去混响的相互学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

提出了音频-视觉去混响框架AdVerb,利用视觉线索估计清晰音频,通过跨模态变换器架构生成理想比例掩码,应用于混响音频以预测清晰音频。该方法在语音增强、语音识别和说话人验证三个任务上相对改进范围为18%-82%。在AVSpeech数据集上也取得了满意的RT60误差得分。

🎯

关键要点

  • 提出了一种新颖的音频-视觉去混响框架AdVerb。
  • 利用视觉线索估计清晰音频。
  • 通过几何感知的跨模态变换器架构生成理想比例掩码。
  • 该方法应用于混响音频以预测清晰音频。
  • 在语音增强、语音识别和说话人验证三个任务上,相对改进范围为18%-82%。
  • 在AVSpeech数据集上取得了满意的RT60误差得分。
➡️

继续阅读