BriefGPT - AI 论文速递 ·

2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

本文介绍了Microsoft公司的单声道多人对话录音扬声器辨识系统，并用VoxCeleb挑战赛2020年的说话人辨识赛道进行了评估。系统解决了真实多人对话记录中的问题，包括说话人嵌入提取器、连续语音分离和泄漏过滤，以及系统融合方法。使用VoxSRC challenge 2020数据集进行评估，最佳系统在开发集和评估集上的辨识错误率（DER）分别为3.71％和6.23％，并在辨识赛道上排名第一。

🎯

关键要点

介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统。
使用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行评估。
系统设计解决了真实多人对话记录中的问题。
组件包括 Res2Net 基于说话人嵌入提取器、基于 conformer 的连续语音分离和泄漏过滤。
修改后的 DOVER 方法用于系统融合。
使用 VoxSRC challenge 2020 数据集进行系统评估。
最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％。
在挑战的辨识赛道上排名第一。

🏷️

2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

内容提要

关键要点

标签

继续阅读