基于视觉场景驱动扩散的声音匹配与去混响的相互学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
提出了音频-视觉去混响框架AdVerb,利用视觉线索估计清晰音频,通过跨模态变换器架构生成理想比例掩码,应用于混响音频以预测清晰音频。该方法在语音增强、语音识别和说话人验证三个任务上相对改进范围为18%-82%。在AVSpeech数据集上也取得了满意的RT60误差得分。
🎯
关键要点
- 提出了一种新颖的音频-视觉去混响框架AdVerb。
- 利用视觉线索估计清晰音频。
- 通过几何感知的跨模态变换器架构生成理想比例掩码。
- 该方法应用于混响音频以预测清晰音频。
- 在语音增强、语音识别和说话人验证三个任务上,相对改进范围为18%-82%。
- 在AVSpeech数据集上取得了满意的RT60误差得分。
🏷️
标签
➡️