中国电信参赛介绍 - VoxCeleb2023 说话人识别挑战

💡 原文约300字/词,阅读约需1分钟。
📝

内容提要

本文介绍了Microsoft公司的单声道多人对话录音扬声器辨识系统,并使用VoxCeleb挑战赛2020年的说话人辨识赛道进行评估。系统设计解决了真实多人对话记录中的问题,包括Res2Net基于说话人嵌入提取器、基于conformer的连续语音分离和泄漏过滤,以及修改后的DOVER方法用于系统融合。使用VoxSRC challenge 2020提供的数据集进行系统评估,最佳系统在开发集和评估集上的辨识错误率分别为3.71%和6.23%,在辨识赛道上排名第一。

🎯

关键要点

  • 介绍了Microsoft公司的单声道多人对话录音扬声器辨识系统。
  • 使用VoxCeleb挑战赛2020年的说话人辨识赛道进行评估。
  • 系统设计解决了真实多人对话记录中的问题。
  • 组件包括Res2Net基于说话人嵌入提取器。
  • 基于conformer的连续语音分离和泄漏过滤。
  • 修改后的DOVER方法用于系统融合。
  • 使用VoxSRC challenge 2020提供的数据集进行系统评估。
  • 最佳系统在开发集上的辨识错误率为3.71%,在评估集上的为6.23%。
  • 在辨识赛道上排名第一。
➡️

继续阅读