优化端到端自动语音识别的字节级表示
原文英文,约200词,阅读约需1分钟。发表于: 。In this paper, we propose an algorithm to optimize a byte-level representation for end-to-end (E2E) automatic speech recognition (ASR). Byte-level representation is often used by large scale...
本文提出了一种优化端到端自动语音识别的字节级表示的算法。通过使用自动编码器和向量量化,可以实现更好的准确性。该框架整合了不同模态的信息,并提供纠错机制。在英语/普通话听写任务中,使用这种方法构建的双语ASR模型相对于UTF-8表示可以提高5%的错误率。