小红花·文摘

这项研究介绍了一种新的自监督语音转换架构，可以创建说话者解耦的表示。结果显示，使用这种表示的大型语言模型在说话者相似度和词错误率方面都有显著提高。同时，它们在自然性方面也优于人类录音。