小红花·文摘

本研究介绍了一种使用麦克风阵列和360度摄像头生成会议演讲者注释转录的系统。通过连续语音分离和音频视觉演讲者日记化方法，该系统能够处理重叠语音并提供准确转录。实验结果显示，连续语音分离方法相对于波束成形技术能够降低字词错误率16.1%。当有完整与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为1.0%。当50%的与会者对系统不知情时，差异略有增加，为1.6%。