小红花·文摘

提出了音频-视觉去混响框架AdVerb，利用视觉线索估计清晰音频，通过跨模态变换器架构生成理想比例掩码，应用于混响音频以预测清晰音频。该方法在语音增强、语音识别和说话人验证三个任务上相对改进范围为18%-82%。在AVSpeech数据集上也取得了满意的RT60误差得分。