小红花·文摘

突破噪音：新一代 AI 如何改变语音分离技术

实时互动网 ·

清华团队新算法玩转频域时域，压缩95%计算量实现语音分离新SOTA！

机器之心 ·

本研究提出了一种多选择学习（MCL）框架，旨在解决监督学习中语音分离模型的排列问题。实验结果表明，MCL在计算效率上优于传统的排列不变训练（PIT），且性能相当，为处理可变数量说话者的语音分离提供了新的思路。

Application of Multi-Choice Learning in Efficient Speech Separation for Multiple Speakers

BriefGPT - AI 论文速递 ·

本研究提出了一种自监督的领域不变预训练前端（DIP），旨在解决语音分离模型在真实环境中因缺乏目标参考数据而导致的领域差距，从而显著提升模型在真实数据上的表现。

利用预训练前端的语音分离以最小化领域不匹配

BriefGPT - AI 论文速递 ·

AV-CrossNet是一种音视系统，用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明，AV-CrossNet在音视任务上具有最先进的性能。

LSTMSE-Net：用于音视频语音增强的长短时记忆语音增强网络

BriefGPT - AI 论文速递 ·

本文介绍了一种名为SPMamba的网络架构，用于语音分离。通过替换TF-GridNet模型的Transformer组件为双向Mamba模块，SPMamba能够捕捉更广泛的上下文信息。实验结果显示，SPMamba在性能方面表现出优越性，与TF-GridNet相比，在SI-SNRi方面提高了2.42 dB。

ChangeMamba: 遥感变化检测与时空状态空间模型

BriefGPT - AI 论文速递 ·