使用变长软池化方法从语音表示中去除说话人信息

原文约400字,阅读约需1分钟。发表于:

通过利用语音的结构性质,采用神经网络预测边界从而实现可变长度池化,以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法,该模型训练时被评估为包含内容信息但独立于说话人信息。

这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好,并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。

相关推荐 去reddit讨论