本研究介绍了一种使用麦克风阵列和360度摄像头生成会议演讲者注释转录的系统。通过连续语音分离和音频视觉演讲者日记化方法,该系统能够处理重叠语音并提供准确转录。实验结果显示,连续语音分离方法相对于波束成形技术能够降低字词错误率16.1%。当有完整与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为1.0%。当50%的与会者对系统不知情时,差异略有增加,为1.6%。
完成下面两步后,将自动完成登录并继续当前操作。