小红花·文摘

RAG新突破：块状注意力机制实现超低延迟检索增强

机器之心 ·

本文介绍了一种名为 Block-State Transformer 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。该模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。此外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

卷积状态空间模型用于长程时空建模

BriefGPT - AI 论文速递 ·