Deep Speaker 是一种神经说话人嵌入系统,通过余弦相似度测量说话人相似性。该系统采用 ResCNN 和 GRU 架构提取声学特征,实验表明其在多个数据集上优于传统 DNN 基线,并提高了英语说话人的识别精度。研究还探讨了模型不确定性、嵌入空间优化及新评分机制,显示出在说话人识别和验证中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。