BriefGPT - AI 论文速递 ·

LSTMSE-Net：用于音视频语音增强的长短时记忆语音增强网络

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本研究提出了一种结合视觉和音频信号的深度学习模型，利用双向长短时记忆网络提升噪声环境下的语音增强质量。实验结果表明，该系统在语音清晰度和可懂度方面表现优异，尤其在低信噪比条件下显著降低了单词错误率。

🎯

❓

LSTMSE-Net主要用于在噪声环境下提升语音增强质量，结合视觉和音频信号进行处理。

在低信噪比条件下，LSTMSE-Net显著降低了单词错误率，提升了语音清晰度和可懂度。

该模型通过特征集成和利用视觉信息来提升语音信号的质量，尤其在嘈杂环境中表现更佳。

LSTMSE-Net在多个公共数据集上评估结果显示，其在语音增强任务中优于传统方法。

研究在多个公共数据集上进行了评估，包括LRS、VoxCeleb和COG-MHEAR挑战。

LSTMSE-Net的创新点在于结合视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成。

🏷️