CNVSRC 2024 年视觉语音识别的 NPU-ASLP 系统描述

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中表现优异,单说话人和多说话人任务的字符错误率分别为34.76%和41.06%,在所有三个跟踪中排名第一。研究采用中间连接主义时间分类模块和双变压器解码器,显著提升了识别准确性。

🎯

关键要点

  • NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中表现优异,单说话人任务的字符错误率为34.76%,多说话人任务的字符错误率为41.06%。
  • 该系统在所有三个跟踪中排名第一,采用中间连接主义时间分类模块和双变压器解码器,显著提升了识别准确性。
  • 研究中使用汉字作为建模单元,并在推断阶段使用递归神经网络语言模型进行浅层融合,最终在评估集上的字符错误率为38.09%。
  • 此次挑战旨在评估大词汇量连续视觉语音识别在单一说话人和多说话人任务上的性能,取得了显著成功,尤其是在单一说话人任务中。

延伸问答

NPU-ASLP-LiAuto在视觉语音识别挑战赛中的表现如何?

NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中,单说话人任务的字符错误率为34.76%,多说话人任务的字符错误率为41.06%,在所有三个跟踪中排名第一。

NPU-ASLP-LiAuto使用了哪些技术来提升识别准确性?

该系统采用了中间连接主义时间分类模块和双变压器解码器,以显著提升识别准确性。

在推断阶段,NPU-ASLP-LiAuto使用了什么模型?

在推断阶段,NPU-ASLP-LiAuto使用了递归神经网络语言模型进行浅层融合。

这项挑战的主要目标是什么?

此次挑战旨在评估大词汇量连续视觉语音识别在单一说话人和多说话人任务上的性能。

NPU-ASLP-LiAuto在评估集上的字符错误率是多少?

在评估集上,NPU-ASLP-LiAuto的字符错误率为38.09%。

NPU-ASLP-LiAuto在挑战赛中获得了什么名次?

NPU-ASLP-LiAuto在挑战赛中获得了第二名。

➡️

继续阅读