基于AI的语音分离技术利用“吸引子”机制,在多人同时发言时能够清晰识别和分离声音,适用于虚拟会议和智能家居设备,提升语音识别准确性和用户体验,未来有望改善人机交互。
清华大学研究团队提出了轻量级语音分离模型TIGER,结合时频交叉建模和频带切分策略,显著提升了语音分离效果。新数据集EchoSet更真实地模拟了复杂声学环境,实验结果表明TIGER在性能和效率上优于现有模型。
本研究提出了一种多选择学习(MCL)框架,旨在解决监督学习中语音分离模型的排列问题。实验结果表明,MCL在计算效率上优于传统的排列不变训练(PIT),且性能相当,为处理可变数量说话者的语音分离提供了新的思路。
本研究提出了一种自监督的领域不变预训练前端(DIP),旨在解决语音分离模型在真实环境中因缺乏目标参考数据而导致的领域差距,从而显著提升模型在真实数据上的表现。
AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明,AV-CrossNet在音视任务上具有最先进的性能。
本文介绍了一种名为SPMamba的网络架构,用于语音分离。通过替换TF-GridNet模型的Transformer组件为双向Mamba模块,SPMamba能够捕捉更广泛的上下文信息。实验结果显示,SPMamba在性能方面表现出优越性,与TF-GridNet相比,在SI-SNRi方面提高了2.42 dB。
完成下面两步后,将自动完成登录并继续当前操作。