本研究提出了一种新的自监督微调方法,旨在从发音单元中分离说话者信息。该方法通过数据增强和帧级训练,在音节分段和质量度量上超越了现有技术,展示了无文本模型在音节组织中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。