BriefGPT - AI 论文速递 ·

异构空间融合与双维注意力：语音增强的新范例

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了多种语音增强技术，包括FullSubNet+、PT-FSE、MAST、S4、DPCFCS-Net和AV2Wav。这些方法通过改进模型结构和算法，显著提升了在噪声和复杂环境中的语音增强效果，达到了先进水平。

🎯

❓

FullSubNet+是一种扩展的单通道实时语音增强框架，采用轻量级多尺度时间敏感通道注意力模块，表现优越。

PT-FSE通过对子带频谱图的操作，结合全频带和子频带的融合模型，显著提升语音质量。

MAST在音频分类和自监督学习中表现优于现有技术，尤其在LAPE基准测试中取得了更高的性能。

S4方法通过多维结构化状态空间增强语音，捕捉频谱依赖性，模型尺寸缩小但性能竞争力强。

DPCFCS-Net结合改进的密集连接块和双路径模块，具有更高的适应性，并在语音增强领域表现优于现有技术。

AV2Wav是一种基于重新综合的视听语音增强方法，通过训练扩散模型生成清晰语音，性能优于基于掩模的基线。

🏷️