基于多通道增强生成纠错的日本语音识别基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们引入了一种新的跨模态融合技术,用于在自动语音识别中进行生成性错误校正。通过利用声学信息和外部语言表示,我们的方法提高了ASR性能。在多样的ASR数据集上评估,相对于n-best假设的错误率性能提高了37.66%。我们将代码和预训练模型开源。

🎯

关键要点

  • 引入了一种新的跨模态融合技术用于自动语音识别中的生成性错误校正。
  • 方法利用声学信息和外部语言表示生成准确的语音转录上下文。
  • 与现有的基于排名的重排序方法不同,采用不同的初始化技术和参数高效算法。
  • 通过评估多样的ASR数据集,验证了融合技术的稳定性和可重现性。
  • 相对于n-best假设的错误率,性能提高了37.66%。
  • 代码和预训练模型已开源,以鼓励未来的研究。
🏷️

标签

➡️

继续阅读