NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中表现优异,单说话人和多说话人任务的字符错误率分别为34.76%和41.06%,在所有三个跟踪中排名第一。研究采用中间连接主义时间分类模块和双变压器解码器,显著提升了识别准确性。
完成下面两步后,将自动完成登录并继续当前操作。