机器之心 ·

清华团队新算法玩转频域时域，压缩95%计算量实现语音分离新SOTA！

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

清华大学研究团队提出了轻量级语音分离模型TIGER，结合时频交叉建模和频带切分策略，显著提升了语音分离效果。新数据集EchoSet更真实地模拟了复杂声学环境，实验结果表明TIGER在性能和效率上优于现有模型。

🎯

🔎

TIGER模型通过时频交叉建模和频带切分策略，显著提升了语音分离效果。这种方法不仅提高了分离精度，还有效降低了计算复杂度，使其在资源受限的环境中也能高效运行。

EchoSet数据集的设计更贴近真实声学环境，包含噪声和混响效果，提升了模型的泛化能力。这一数据集的引入为语音分离模型的训练提供了更为真实的测试基础，增强了模型在实际应用中的表现。

尽管TIGER在复杂声学环境中表现优异，但在实际应用中仍需关注不同环境下的适应性。未来的研究可以进一步探索如何在更广泛的场景中保持其高效性与准确性。

❓

TIGER模型结合了时频交叉建模和频带切分策略，显著提升了语音分离效果，同时压缩了94.3%的参数量和95.3%的计算量。

EchoSet数据集更真实地模拟了复杂声学环境，包含噪声和混响效果，提升了模型的泛化能力。

实验结果显示，TIGER在复杂声学环境中的表现优于现有模型，并在真实世界数据上具有最佳的分离性能。

TIGER模型的流程包括编码器、频带切分模块、分离器、频带恢复模块和解码器，利用短时傅里叶变换处理音频信号。

TIGER模型在性能上与TF-GridNet相当，但在参数量和计算量上分别减少了94.3%和95.3%。

TIGER模型在计算资源受限的场景下具有广泛的应用前景，尤其在复杂声学环境中的语音分离任务。

🏷️