选择性状态空间模型在正规语言上的表达能力与长度泛化
📝
内容提要
本研究针对选择性状态空间模型(SSMs),探讨其在正规语言任务中的表达能力和长度泛化特性,填补了当前相关研究的空白。论文提出了一种新模型:选择性稠密状态空间模型(SD-SSM),该模型在多个正规语言任务中实现了完美的长度泛化,展示了其创新的稠密转移矩阵字典和软最大选择机制。该工作的显著发现是,SD-SSM能够在单层架构下有效应对现代SSM架构的局限性,具有重要的理论和实践意义。
➡️