自我监督解开说话人确认中的声音和内容
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种解缠结构框架,能同时模拟语音中的说话人特征和内容可变性,通过三个高斯推理层实现,能提取出独特的语音组成成分。实验证实了该框架的有效性,能在实际应用中容易使用。
🎯
关键要点
-
该研究提出了一种解缠结构框架,能同时模拟语音中的说话人特征和内容可变性。
-
框架通过三个高斯推理层实现,每个层由可学习的转换模型组成。
-
该框架能够提取出独特的语音组成成分。
-
实验证实了框架的有效性,在VoxCeleb和SITW数据集上表现良好。
-
等价错误率和最小DCF分别降低了9.56%和8.24%。
-
该框架不需要额外的模型训练或数据,易于在实际应用中使用。
🏷️