DPATD: 双阶段音频变压器降噪
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了一种新的语音分离模型——时域conformers(TD-Conformers),它是一种类似于双路径(DP)网络的方法,可以顺序处理本地和全局上下文,但时间复杂性函数不同。该模型在现实中较短的信号长度下更有效,提出了子采样层以进一步提高计算效率。
🎯
关键要点
-
语音分离是多说话者技术研究中的重要课题。
-
卷积增强变换器在语音处理任务中表现良好,但在语音分离方面研究较少。
-
时域音频分离网络(TasNets)是最近的分离模型。
-
双路径(DP)网络顺序处理本地和全局信息。
-
时域conformers(TD-Conformers)类似于DP方法,顺序处理本地和全局上下文,但时间复杂性函数不同。
-
TD-Conformers在较短信号长度下更有效,控制特征维度时表现更佳。
-
提出了子采样层以提高计算效率。
-
最佳的TD-Conformer在WHAMR和WSJ0-2Mix基准测试上分别实现了14.6 dB和21.2 dB的SISDR改进。
🏷️
标签
➡️