OTCE:混合 SSM 和注意力机制,通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达耠
原文中文,约900字,阅读约需2分钟。发表于: 。将 Mamba 与 Transformer 架构相结合,利用二次自注意机制与有选择的状态空间处理长期依赖关系,并通过位置信息注入方法连接两种架构,设计了一种新的 Observer-Thinker-Conceiver-Expresser (OTCE) 架构,在小规模语言建模任务中能够与知名的中等规模开源语言模型竞争。
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在复制或上下文学习能力强的任务上落后。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。