小红花·文摘

Deep Speaker 是一种神经说话人嵌入系统，通过余弦相似度测量说话人相似性。该系统采用 ResCNN 和 GRU 架构提取声学特征，实验表明其在多个数据集上优于传统 DNN 基线，并提高了英语说话人的识别精度。研究还探讨了模型不确定性、嵌入空间优化及新评分机制，显示出在说话人识别和验证中的有效性。