实时互动网 ·

xLSTM-SENet：重新定义单通道语音增强

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

xLSTM-SENet是一种新型的单通道语音增强系统，基于扩展长短期记忆架构，克服了传统模型的局限性。它通过改进存储控制和增加容量，提高了语音质量和清晰度，适合计算资源有限的设备。评估结果表明，其性能优于多种先进模型。

🎯

🔎

xLSTM-SENet通过引入指数门控和矩阵记忆，克服了传统LSTM的局限性。这使得该系统在处理嘈杂环境中的语音时，能够提供更高的清晰度和质量，特别适合助听器和自动语音识别等应用场景。随着技术的不断进步，xLSTM-SENet有望在实际应用中发挥更大作用。

在使用VoiceBank+DEMAND数据集进行的评估中，xLSTM-SENet的PESQ和STOI得分均优于多种先进模型，如SEMamba和MP-SENet。这表明该系统在语音增强领域具有竞争力，尤其是在计算资源有限的设备上，能够实现高效的语音处理。

尽管xLSTM-SENet的训练时间较长，但其在性能上的显著提升证明了其价值。这一特性提醒研究人员在选择模型时，需要在训练效率与最终性能之间进行权衡，以确保在实际应用中获得最佳效果。

❓

xLSTM-SENet是一种基于扩展长短期记忆架构的单通道语音增强系统，克服了传统模型的局限性，适合计算资源有限的设备。

该系统通过改进存储控制和增加容量，采用双向架构和专用解码器来提高语音质量和清晰度。

xLSTM-SENet在处理幅度和相位频谱方面更有效，且在性能评估中优于多种先进模型，如SEMamba和MP-SENet。

在VoiceBank+DEMAND数据集上，xLSTM-SENet的PESQ得分为3.48，STOI为0.96，显示出显著的性能改进。

该系统适用于助听器、自动语音识别和说话人验证等需要清晰音频的应用场景。

xLSTM-SENet的核心技术是TF-xLSTM块，结合了mLSTM层和双向架构，以捕获时间和频率依赖性。

🏷️