本研究提出了一种多选择学习(MCL)框架,旨在解决监督学习中语音分离模型的排列问题。实验结果表明,MCL在计算效率上优于传统的排列不变训练(PIT),且性能相当,为处理可变数量说话者的语音分离提供了新的思路。
我们通过数十万小时的语音数据预训练模型,并在高质量对话数据上进行微调,使模型能够可靠地切换说话者并生成真实音质的音频。
完成下面两步后,将自动完成登录并继续当前操作。