选择性状态空间模型在正规语言上的表达能力与长度泛化

📝

内容提要

本研究针对选择性状态空间模型(SSMs),探讨其在正规语言任务中的表达能力和长度泛化特性,填补了当前相关研究的空白。论文提出了一种新模型:选择性稠密状态空间模型(SD-SSM),该模型在多个正规语言任务中实现了完美的长度泛化,展示了其创新的稠密转移矩阵字典和软最大选择机制。该工作的显著发现是,SD-SSM能够在单层架构下有效应对现代SSM架构的局限性,具有重要的理论和实践意义。

➡️

继续阅读