本文介绍了一种新的跨模态融合技术,用于自动语音识别中的错误校正。该方法利用声学信息和外部语言表示生成准确的语音转录上下文,并通过多样的ASR数据集评估,相对提高了37.66%的错误率性能。作者还开源了代码和预训练模型。
本文提出了一种从多方会议语义内容中提取与讲话者相关信息的方法,改进说话人分离方法。该方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
完成下面两步后,将自动完成登录并继续当前操作。