本研究介绍了我们在2023年中国持续视觉语音识别挑战赛中的系统,使用了中间连接主义时间分类残差模块和双变压器解码器提高准确性。使用汉字作为建模单元,并使用递归神经网络语言模型进行浅层融合。实验结果显示,我们的系统在评估集上的字符错误率为38.09%,相对于基准线减少了21.63%,并获得第二名。
完成下面两步后,将自动完成登录并继续当前操作。