本文介绍了一种新型音频-视觉语音增强框架,利用个性化模型和神经编解码器从嘈杂信号中合成清晰语音。该框架通过深度学习和视觉信息提高语音质量,适用于多人对话和嘈杂环境,实验结果显示其在语音增强和噪音降低方面表现优异。
完成下面两步后,将自动完成登录并继续当前操作。