DPATD: 双阶段音频变压器降噪

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一种新的语音分离模型——时域conformers(TD-Conformers),它是一种类似于双路径(DP)网络的方法,可以顺序处理本地和全局上下文,但时间复杂性函数不同。该模型在现实中较短的信号长度下更有效,提出了子采样层以进一步提高计算效率。

🎯

关键要点

  • 语音分离是多说话者技术研究中的重要课题。

  • 卷积增强变换器在语音处理任务中表现良好,但在语音分离方面研究较少。

  • 时域音频分离网络(TasNets)是最近的分离模型。

  • 双路径(DP)网络顺序处理本地和全局信息。

  • 时域conformers(TD-Conformers)类似于DP方法,顺序处理本地和全局上下文,但时间复杂性函数不同。

  • TD-Conformers在较短信号长度下更有效,控制特征维度时表现更佳。

  • 提出了子采样层以提高计算效率。

  • 最佳的TD-Conformer在WHAMR和WSJ0-2Mix基准测试上分别实现了14.6 dB和21.2 dB的SISDR改进。

➡️

继续阅读