常见在线说话者对话方法综述
原文中文,约400字,阅读约需1分钟。发表于: 。在线说话者辨识提供了 “谁何时说话” 的答案,可用于完成音频转录和后续处理步骤;本文概述了在线说话者辨识的历史、训练与评估数据集,详细讨论了在线辨识方法与系统,并提出了该领域需要未来研究解决的挑战。
本研究介绍了一种使用麦克风阵列和360度摄像头生成会议演讲者注释转录的系统。通过连续语音分离和音频视觉演讲者日记化方法,该系统能够处理重叠语音并提供准确转录。实验结果显示,连续语音分离方法相对于波束成形技术能够降低字词错误率16.1%。当有完整与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为1.0%。当50%的与会者对系统不知情时,差异略有增加,为1.6%。