提出了音频-视觉去混响框架AdVerb,利用视觉线索估计清晰音频,通过跨模态变换器架构生成理想比例掩码,应用于混响音频以预测清晰音频。该方法在语音增强、语音识别和说话人验证三个任务上相对改进范围为18%-82%。在AVSpeech数据集上也取得了满意的RT60误差得分。
完成下面两步后,将自动完成登录并继续当前操作。