小红花·文摘

本文介绍了一种新型音频-视觉语音增强框架，利用个性化模型和神经编解码器从嘈杂信号中合成清晰语音。该框架通过深度学习和视觉信息提高语音质量，适用于多人对话和嘈杂环境，实验结果显示其在语音增强和噪音降低方面表现优异。