小红花·文摘

本文介绍了一种新颖的自监督学习方法，结合分离机制和编码框架，有效实现说话人分离并提升语音识别性能。研究提出通过特征离散化和语音合成模型建模发言人特征的新方法，尤其在生成虚拟发言人方面表现出色。此外，改进的深度说话人嵌入在说话人验证任务中显著降低了错误率。