本文探讨了状态空间模型(SSM)在状态跟踪中的表达能力,分析了其与转换器架构的相似性及局限性。研究提出了多头状态空间架构(MH-SSM)和混合层Block-State Transformer(BST),在语音识别和语言模型任务中表现优于传统模型。引入选择性机制和可扩展训练算法,提升了SSM的性能和训练效率。
本文介绍了一种新的多头状态空间架构(MH-SSM),用于处理序列数据。该架构在LibriSpeech语音识别数据集上表现出色,无需外部语言模型,实现了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。